“总台算法” 在央视频平台影视版块的实践

本文主要总结了“总台算法”在央视频平台 影视版块实践,介绍了央视频算法推荐的整 体技术架构,并具体介绍了其应用方式,同 时通过基于A/B-test 的用户分桶来验证算 法效果,数据显示算法推荐覆盖的用户在绝大 多数指标上得到了显著提升。

摘要

2021 年中央广播电视总台在前期应用的经验基础上启动了总台算法建设项目,在央视频平台上建设面向综合类节目的推荐算法,具体路线为先在各垂类版块应用总台算法,随后再应用于首页推荐。本文主要介绍总台算法在央视频平台影视版块的实践。首先介绍央视频算法推荐的整体技术架构,然后具体介绍在央视频影视版块的应用,分别介绍了应用于长视频模块和feeds 流模块的总台算法特有策略,通过随机选取等量用户分别作为算法组和人工编排的对照组进行A/B-test用户分流实验,对比数据效果。

一 央视频影视版块业务简介

影视版块是总台算法在央视频平台垂类版块的首个应用版块,该版块内容以电影和电视剧为主,其优点在于:活跃用户数量比较稳定,不会随时令发生较大波动,进行实验可信度高、说服力强。影视版块整体页面包含四大部分,如图1所示。从上到下依次是:焦点图、宫格、猜你会追和feeds 流。在未应用算法之前,其内容均为人工编排。在总台算法的首期建设上锁定“猜你会追”和feeds 流两个版块进行应用。

image.png

二 央视频算法推荐的技术架构

作为中央广播电视总台的旗舰媒体平台,央视频具备多内容实体类型、多业务场景、数据复杂、规则多样等特点,具体来说如下:

◆业务场景多种多样:包括推荐版块、实时插入、底层页相关推荐、央友圈广场等;

◆推荐实体各有不同:包括短视频、长视频、直播、电视台、帖子等;

◆数据内容复杂多变:单文档30+ 字段、多维度策略参数、复杂共识结构等;

◆规则策略层出不穷:包括加权、过滤、流控、冷启、多样性、打散等。

因而有必要设计统一的推荐技术架构以提升研发效率,再根据具体版块的不同特点做策略定制优化。其优势如下:

◆通用性:收拢不同场景,对不同存储、不同数据、不同策略进行统一处理和通用抽象。作为一个统一、通用、融合的推荐架构,保障不同推荐实体(长视频、短视频、帖子等)不同推荐场景的快速接入;

◆可复用:各子服务遵循可复用设计,抽离服务变化与不变的部分,不变的部分抽象成主流程框架,变化的部分开放接口以插件的方式运行在框架之上,各场景插件可配置、可复用、可插拔;

◆高性能:通过多层架构设计、异步编程方法以及并行计算方式来保障服务整体性能;

◆扩展性:基于微服务架构体系的服务无状态化设计,易于水平扩展;

◆稳定性:设计高覆盖率测试用例、多级兜底方案以保证服务稳定性。

具体在架构设计方面,如图2 所示。最下面为多内容输入,作为候选内容池供推荐算法分析;最上面为算法输出的多场景,包括各个版块、底层页、圈子等;中间部分包括内容理解、用户理解和推荐策略三大部分,本文主要介绍推荐策略。

推荐系统主要包括两大核心模块:召回和排序。召回可以理解为粗筛,主要功能和目的是从海量内容池中快速筛选出用户可能感兴趣的内容;排序则是基于多种模型和算法从这些内容中挑选出用户最喜欢的,一般包括精排和重排两部分。

具体来说,召回阶段是根据不同内容类型独立构建召回,目前包括四大类召回:

◆兴趣类召回:包括分类兴趣召回、标签兴趣召回、剧名互通召回等;

◆行为类召回:协同类召回、账号关注召回、追剧承接召回等;

◆热度类召回:播放/ 时长、互动率、分群热度等;

◆模型类召回:i2i、u2i、word2vec 等。精排阶段是基于不同内容类型独立训练模型,目前应用的有单目标模型,包括dnn 模型、wide&deep、deepFM 等; 多目标模型, 包括dnn模型、ESMM、MMoE 等;其他模型类型,包括vid 模型、cid 模型、pid 模型、混合模型等。

重排是在精排之后进一步优化排序的合理性,目前包括的策略有曝光过滤、流量分配、实时反馈、权重调控、混合多样性打散等。

image.png

三 影视版块的算法推荐应用方式

在统一的算法推荐技术架构基础上,针对不同版块特点不同,需要定制和优化相关策略以及目标模型。央视频影视版块主要在两大模块:“猜你会追”和feeds 流上应用算法推荐,前者业务类型是长视频内容推荐,后者是短视频+ 移动直播的短视频内容推荐。以下分别介绍各模块的推荐算法策略。

1.“猜你会追”长视频模块

“猜你会追”长视频模块部分如图3 红框部分所示。相比人工编排,算法推荐的展示页面由“横滑泳道”变为“双排2×3 的小对图”模式,小对图固定6 个位置,可不断刷新出新内容,页面模块UI 与交互不变。该模块的算法推荐有以下特点:

◆“2+2+1+1”:在内容设计上采取用户在追内容(2 个)+ 用户可能追的内容(2 个)+ 新热内容(1 个)+ 精品池内容(1 个)配置原则,以达到收益最大化;

◆全量推荐:构建影视全品类专辑内容池保证算法可以进行全量推荐,目前数量已达到1460 个;

◆曝光过滤:不重复推荐之前曝光过而未被点击的内容给用户。

具体来说,在用户画像方面,根据用户曝光、播放、点击、互动、消费时长及时间,对长视频分类、打标签及设定权重;在推荐的召回模块方面,针对影视剧的1460 个长视频专辑,结合用户画像制定多种召回策略保证最大程度筛选出用户可能感兴趣的内容,包括五个部分:

◆同主题召回:对用户喜欢的剧的所属题材/分类下的其他剧召回;

◆相似用户召回:对喜欢同样剧的用户在看的其他剧召回;

◆热度召回:对全平台播放量高的热门剧召回;

◆时效召回:对最新刚上架的剧的召回;

◆短带长召回:对用户观看的短视频相关联的长视频的召回。

在推荐的排序模块方面,设计了多目标融合优化机制,结合长视频点击率和预期观看时长进行模型预估优化,进行曝光过滤,不重复推荐之前曝光未点击的内容给用户,同时针对不同召回类型/ 长视频分类等进行充分打散以保障内容的多样性。

2. Feeds 流模块(短视频+ 移动直播)

Feeds 流模块(短视频+ 移动直播)部分如图3 蓝框部分所示。与人工编排相比,算法推荐的UI 和交互不变,仅推荐内容改为由算法推荐。该模块的算法推荐有以下特点:


◆“9:1”:基于当前影视模块的特性设定每10 个推荐包含9 个短视频和1 个移动直播,该比例在未来可根据业务变化或要求灵活调整;

◆时效+ 热度:综合考虑内容时效性和内容热度进行推荐,以达到更精准的覆盖;

◆流量调控:可根据需要通过算法对内容进行流量调控,比如重大活动的覆盖要求等。

具体来说,在用户画像方面重构了短视频画像的计算逻辑,包括:优化了用户兴趣有效性;提升了画像丰富度;建立了离线评估手段。在推荐的召回模块方面基于“9+1”混合推荐原则加入单路召回策略,包括三个部分:针对影视类的短视频和直播进行混合推荐;召回策略的优化,增加满足用户影视类的短视频兴趣类召回、相同行为的用户协同类的召回,以及热度类召回策略;长带短推荐,对用户观看影视长视频的相关短视频进行召回。在推荐的排序模块方面,针对性优化重排机制,对剧名进行多样性打散以及实时正负反馈,即根据剧名的实时播放,呈现更多正向反馈的相关剧或者减少曝光不看负向反馈的相关剧,最大程度将用户最喜欢的内容排在前面。

四 算法测试系统(A/B-test)

为验证推荐算法效果,建设过程中采用业界常用的A/B-test 实验进行分析。

首先是建立用户分桶,如图4 所示。具体操作为从影视版块日活跃用户中随机抽取4 万用户,一半作为算法组实验用户,另一半作为对照组用户,算法组用户通过算法推荐内容,对照组用户保持人工编排内容推送不变。同时要剔除异常用户,保证对照组用户和剩余非实验用户的一致性。

image.png

其次是建立算法评价体系来指导算法演进方向,设计了用户类、播放类和曝光类等11 项关键指标及几十项辅助观测指标,具体如表1。

经为期半年的应用,算法组在绝大部分指标上都得到了显著提升,如“猜你会追”长视频模块、feeds 流模块在用户转化率上分别提升了66.92%和75%, 人均播放时长上分别提升了33.24% 和45.68%。

五 总结

本文介绍了总台算法在央视频平台影视版块的实践,包括央视频算法推荐的整体技术架构介绍、具体算法应用以及算法测试系统。数据显示相比对照组,算法组在绝大部分指标上都得到了显著提升,后续将持续优化影视及其他版块相关策略,并最终在推荐首页应用算法。

转载请注明来源:《现代电视技术》 作者:中央广播电视总台 杨质祺