“总台算法”在央视频平台的应用探索

总台算法是2021 年中央广播电视总台推进媒 体深度融合发展的一项重点工作,在总台各个 新媒体平台上建设有导向的、自主可控的算法 推荐。本文介绍了总台算法在央视频旗舰媒体 平台上建设与应用的过程,对技术架构、迭代 升级、上线方式、指标监测等方面展开阐述。

摘要

一 总台算法建设背景

在媒体融合涌现的各种形态中,以算法领衔的媒体智能化具有最为强劲的发展势能,依托大数据和人工智能技术为核心的算法推荐已成为当前新媒体平台的标配。国内各大互联网视频平台和社交媒体平台普遍应用算法推荐,通过采集个人数据进行个性化推荐,有效提升了平台的商业价值。算法在吸引用户、展现“威力”的同时,一些负面效应也逐渐暴露出来。早在2017 年9 月,人民网三评算法推荐,连续刊发《不能让算法决定内容》《别被算法困在“信息茧房”》《警惕算法走在创新的反面》,旨在防范过度使用算法的风险。2021 年8 月,中宣部等五部门联合印发了《关于加强新时代文艺评论工作的指导意见》,要求治理算法推荐,不给错误内容提供传播渠道。2021 年9 月,国家网信办等九部门印发《关于加强互联网信息服务算法综合治理的指导意见》,提出算法要坚持正确导向,规范企业算法应用行为,并逐步建立治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局。2022 年1 月,国家网信办等四部门颁布了《互联网信息服务算法推荐管理规定》,要求算法推荐服务必须向用户提供关闭个人信息采集与推荐服务的开关。

早在2018 年,总台就开始对“有导向”的个性化推荐服务进行研究,提炼出一套既符合主流价值导向,又具备个性化的算法推荐,这套算法在有线互动电视“央视专区”及台内多个移动客户端上应用实践,取得良好效果(如图1)。2021 年,随着有关主管部门对算法的监管要求越发明确,总台在前期应用的经验基础上启动了总台算法建设项目,严格按照有关文件的要求,结合国内外先进的算法技术,以主流价值为导向、突出艺术性,均衡结合用户的兴趣喜好,以“央视频”“央视新闻”两个旗舰媒体平台为基础,分别建立面向综合类节目和新闻类节目的推荐算法,并逐步向全台移动端和大屏端推广。

image.png

二 总台算法技术方案

总台算法围绕着“以导向驾驭算法、以算法驱动发展”的目标展开技术建设,既要坚持导向正确,又要能够为业务发展带来显著的提升效应。在借鉴国内外算法推荐模型的基础上,总台算法创新了一套自主可控的技术架构,通过四套系统构建联动机制(如图2)。

image.png

1. 推荐引擎

推荐引擎系统是进行大数据处理与推荐计算的核心系统,基于深度学习模型建立技术框架,构建了多路召回、多目标学习、特征工程、迁移学习等技术模型,在分析预测用户个性化喜好的同时,结合算法工作台输入的规则信号,综合决策推荐结果。在几个关键模型中,多路召回汇聚用户兴趣、共性热点、宣传引导等多路因子形成丰富的召回内容;多目标学习平衡VV、VD、CTR、UTR 等指标的变化,避免过度追求单一指标的上涨导致其他指标的下降;迁移学习解决跨场景的算法复用。

2. 算法工作台

算法工作台是为运营人员管控算法推荐过程的应用系统,也是总台算法区别于商业平台的应用创新,将推荐引擎运行的各关键环节封装成预设的算法规则,经由算法工作台的运营操作生成各类控制信号并输入推荐引擎,通过控制信号调用算法规则,从而干预算法推荐的运行过程。算法工作台提供基于内容的推荐提权、降权,为优质内容解决冷启动;提供基于创作账号的评分,使账号的艺术水准成为算法推荐的重要影响因素;提供基于标签的推荐提权和屏蔽,既可以突出重点内容,也可以屏蔽不合适的内容;提供基于流量的保流、限流,对内容的传播覆盖实现精准管控。

3. A/B-test 系统

A/B-test 系统用于客观计算推荐效果,把用户流量均匀分配到不同版本的推荐业务中,通过对比人均曝光、播放、停留等数据指标,评判各个版本的效果优劣,促进算法优化。A/B-test 主要观测三类指标:一是用户类指标,包括人均停留时长、次日用户留存率、用户转化率等,判定算法策略是否有效增强用户黏性;二是播放类指标,包括播放次数、播放时长、完播率等,判定算法策略是否有效提升了节目播放;三是曝光类指标,包括曝光节目总数、曝光播放率、生产曝光率等,判定算法策略是否对新节目进行有效曝光。

4. 知识结构

知识结构用于对节目内容进行数据化重组,节目完成制作生产后,将陆续通过央视频平台的标准化系统、AI 中台和数据中台,先后获得内容品类标签、标准化状态标签、内容理解标签、制作质量标签、用户互动数据和创作账号评分等数据,使得视音频节目在创作伊始就与数据紧密纠缠在一起,形成一种数据共生形态。其中用户互动数据和内容品类标签用于匹配用户画像;标准化状态体现节目的时效性、规范性、完整性等基础状态;内容理解标签用于热点捕捉和用户兴趣捕捉;制作质量标签通过AI 解析生成,把画面不清晰、水印污染、封面遮挡等制作问题纳入推荐考量;创作账号评分是根据同一账号近期、长期的创作水准预测新创作节目的平均艺术水平,校正推荐冷启动。

三 总台算法的应用模式

1. 业务驱动的技术迭代

总台算法的应用基础是新媒体平台,建设过程具有强烈的新媒体特性。有别于传统技术项目“规划—设计—实施”的建设流程,总台算法在建设中敏捷响应业务需求,采取了业务驱动的技术迭代方式(如图3)。在基础技术框架的搭建阶段,部署了召回、排序、重排、混合推荐、曝光过滤等功能模块,为算法配置了基础的推荐能力。随着引入央视频数据中台的内容数据、用户数据、标签数据,建立了内容理解和用户画像模块,对海量的原始数据进行了预处理。为了体现总台算法的导向性,建立了信号联动模块接收来自算法工作台的运营信号,并通过定制规则模块把导向性、艺术评分与基础的算法推荐规则混合,综合决策推荐内容。

image.png

随着总台算法在央视频平台的各个业务版块逐步铺开,针对版权长视频、feeds流、直播等业务形态分别进行了推荐引擎的细化拆分,使得每项业务更有针对性。在直播推荐上更注重共性热点,在短视频推荐上更注重兴趣选择,在版权长视频推荐上则以精品内容为主,争取用户对剧集的连续收看。“短带长”是总台算法的一个特色功能,对于二次创作的短视频,通过AI 能力关联上对应的电影、电视剧、综艺节目,便于用户的关联播放。为破解商业平台算法推荐的“信息茧房”现象,总台算法组合使用多样性打散、特征工程和冷启动模块,一旦察觉用户的兴趣过度收敛,适当插入正能量内容和陌生领域内容,对新的兴趣点进行试探和引导。

2. 灰度发布的分流上线

总台算法基于在线运营平台央视频之上进行建设,应用效果直接关乎央视频的安全播出和用户体验,面临着“高速路上换轮胎”的难题。因此,项目实施过程采用了灰度发布的分流上线流程( 如图4), 详细步骤如下:

image.png

◆选取试点业务版块进行算法迭代,在该业务版块内对新版本进行独立部署,暂不导入用户流量,全部用户仍使用在线运行的现版本,对迭代无感知;

◆以40 名内部技术人员和运营人员组成内测白名单,白名单用户直接导入新版本,体验新版本功能,并测试排查缺陷;

◆新版本通过白名单内测后,业务版块内50%的用户导入新版本,50% 的用户仍然导入现版本,两个版本并行使用,进入灰度发布阶段;

◆通过观测使用新版本用户群体的UV、VV、VD 等关键指标,对新版本的各个功能模块进行参数调优,充分挖掘算法潜力;

◆经过两周以上的连续观测,当新版本用户群体相比现版本在各项观测指标均呈现明显上升时,认定新版本效果优于现版本,版本上线成功;

◆后续,在试点版块对剩余50% 使用现版本的用户群体导入新版本,现版本停用。同时,新版本的算法推荐复制到其他业务版块,重复上述上线流程,逐步完成全平台的迭代推广。

3. 指标引导的算法升级

总台算法建设是一个伴随业务发展而升级的过程,客观指标是检验算法升级效果的重要考量。为此,构建了一套由11 项主要监测指标和几十个辅助观测指标组成的指标体系,构成如下。

(1)播放类指标

人均播放次数、人均播放时长、完播率、单次平均播放时长这四个指标构成了平台内节目播放的整体情况,既体现整体热度,也体现节目的有效观看,反映的是节目对用户的吸引力。经长期观察,上述指标存在较强的互斥关系,算法提高单一指标相对容易,但往往容易引发其他指标的下降。例如算法锁定播放次数为学习目标时,会提高短视频比例,以牺牲播放时长为代价,在用户的耐性时间内尽可能让更多节目被点击。同时,会学习引入播放次数多但单次播放时间短的节目(通常封面标题吸引人但品质一般),完播率也会有所降低。

(2)曝光类指标

人均曝光节目数、人均曝光次数、曝光节目数、曝光转换率这四个指标构成平台内节目曝光情况,整体反映算法是否把尽可能丰富的节目推荐给了用户,所推荐节目是否得到用户认可,也反映了推荐的方式和形态是否对用户友好。算法是最能拓宽节目露出机会的工具,节目曝光的个数、次数与用户的规模正相关,也应注意避免算法取巧,过度选取吸引力小的节目,通过用户划屏行为增加从而增加节目曝光,但没有转化成有效播放。

(3)用户类指标

用户转化率、次日留存人数、人均停留时长是反映平台用户黏性的指标,在新媒体中常用的反映平台用户规模的DAU、MAU 等指标并不在算法的考虑中。因为平台的用户规模需要结合新用户引流、活跃用户驻留、僵尸用户唤醒等运营手段,并非单纯依靠技术工具能解决。在算法中引入相应的学习模型,使得算法逐渐提升用户的黏性(即耐性时间),才能让更多运营手段有用武之地。

四 小结

2021 年,总台算法在央视频旗舰媒体平台逐渐铺开,在影视、综艺、文史等10 多个业务版块取得了较好的应用效果,多项指标相较算法应用前取得了50% 以上的增长,部分指标增长幅度超过300%。随着算法在各个业务版块的日趋完善,2022年将在央视频平台的首页投入应用,逐步覆盖平台的各项业务,为央视频旗舰媒体平台的蓬勃发展提供全新动能。

转载请注明来源:《现代电视技术》 作者:中央广播电视总台 黄卓伟 崔雪