为什么抖音里的个个都是腿精(抖音全是腿)

时间：2022-11-20来源：鼎品软件作者：佚名

作者：高木

上一篇刚刚说了抖音的内容推荐排序很厉害。例，有些老色批男人的抖音十个推荐里有八个是大长腿，那么抖音是怎么做到的呢？

其实当你是新用户的时候，抖音并不知道你喜欢什么样的视频。这时候给你推荐的视频完全是随机推荐一些热度高的视频，在这些视频的背后贴满了一个个属性标签，例，一个小姐姐的热舞视频，视频的背后标签可能就是“美女”、“大长腿”、“跳舞”、“黑丝”等诸多标签。而一个做菜的美食视频标签可能就是“美食”、“家常”、“厨艺教学”等诸多标签。

随着你行为数据等丰富，你相应的行为会加深对应标签的权重。例如，你在某个视频的停留时间更长，观看次数更多，点赞、评论、转发等互动行为更多，那么这个视频背后的标签在你的账号上权重就会上升。

推荐内容逐渐精准的过程就是一个贴标签、统计标签、匹配标签和结合其他维度属性的综合过程。

通过一定数量的行为数据统计，抖音就能大概地知道了你的喜好倾向。接下来的推荐视频会根据你的喜好倾向，推荐带有相同标签的高质量视频以做进一步的分析，逐步完善，针对你喜好的推荐会越来越精准，获得你更多停留时长的概率也就越高。

抖音围绕着标签体系、召回模型、融合模型、排序规则等其他维度属性排序做了一个综合的策略体系。

用户喜欢什么类型的视频我们是不知道的，并且计算机无法理解人们主观的思维，所以我们需要收集并分析用户在平台产生的行为数据，把这些行为数据进行精炼、归类，形成一套完整闭环的标签体系去描绘用户的数据形象。

▲图1-1 标签体系的应用流程

一套优秀的标签体系结构可以让计算机更好地理解这些行为数据，对于用户意图的判断和数据召回模型的优先级都有很重要的辅助作用。

整个标签体系的搭建围绕着三个步骤去展开：标签建模、标签提炼、标签聚合

标签建模

搭建思路是将数据分为四个层级模型，第四层为预测模型，但预测模型的算法需要大量数据进行演算，本次不做讨论，所以暂且分为三层进行构建。

▲图1-2 标签体系的流程架构

第一层主要是原始数据库，在这一层。我们考虑到数据存储、采集难度和成本方面的因素，尽可能在可控成本内获取到尽可能多的原始数据，因为后面所有标签体系构建都将依托于原始数据库的数据进行计算、分析、归类、建模，所以在收集阶段，原始数据库的搭建要尽可能的全面，故在这一层的关键词是：大量、数据。

而第二层级是根据第一层的原始数据通过算法计算、提炼、规划成可以组成标签体系的一系列通用标签，而这类标签的存在形式类似于矩阵或者多个类别的集合。

在业务需要时，该类标签从数量和维度都可以增加以满足业务需求。所以第二层的关键词是：通用、标签。

而对于第三层，我们可以通过对标签的聚合、提炼、建模等方式构成用户的多个“面”，并运用于多个场景。例如：说小明在听音乐时的画像是摇滚、年轻、流行、活泼；而在学习时的画像是认真、专心、投入、经济学等。

通过用户不同的角度实际运用于各类业务需求，实现精准化。所以在第三层的关键词是：聚合、运用。

标签提炼

获得了大量的原始数据后，我们想把这些数据运用起来，就需要把用户的数据更加具象化。因为已经把用户数据采集起来了，基础的标签可以直接运用内容的标签，通过对用户感兴趣的内容给用户贴标签。

内容标签化

首先要把内容标签化了，根据行为的不同制定不同类别不同级别的标签，可以是描述性的，也可以是具象性的，根据实际业务需求去适应即可，形式并不限制。但内容的标签最好具有通用性，可以是适用于采集到的用户数据的大部分的主体内容。例如，房产类网站，这个类别的标签可以是房子的区域、单价、面积、数量等。

▲图1-3 内容标签化

内容标签化的时候需要注意，标签值需要一个统一的维度，在维度统一的前提下，后期使用或者比较数据才具有对比性。例，图1-3，区域的维度需要统一，如果决定是以行政区为维度，那么每个房源信息中的“区域”都需要以这个维度去统计，不能以其他维度进行统计。这个逻辑下来，房源id为101的标签信息为：丰台区、3单价、3套房源、40-50平方、....

用户标签化

接下来就是把内容所代表的标签根据用户的行为赋予在用户身上，这个过程就要研究用户的兴趣倾向，通过对用户行为的分析，判断出用户感兴趣的内容，把这部分内容的标签，提炼、聚合后赋予至用户身上。

在用户的行为数据中，我们可以根据记录用户对不同内容的不同互动数据，代表这个用户对于当前内容的兴趣倾向程度。例，用户的浏览（时长/频率）、点击、分享/收藏/关注等。

通过对不同行为进行赋值，我们就可以通过分值的计算得出用户最感兴趣的一组标签。

在用户的行为数据中，我们可以根据记录用户对不同内容的不同互动数据，代表这个用户对于当前内容的兴趣倾向程度。例，用户的浏览（时长/频率）、点击、分享/收藏/关注等。

通过对不同行为进行赋值，我们就可以通过分值的计算得出用户最感兴趣的一组标签。