5G 新媒体平台大数据系统 运维体系的建设

本文针对5G 新媒体平台的大数据系统,应用 最先进的大数据运维技术,从运维流程、运维 监控、组织目标三个方面,完成了5G 新媒体 平台大数据系统运维的设计与实现,建立了完 善的运维体系。

摘要

5G 新媒体平台大数据系统需要以数据驱动内容创作,依托“人工智能”(AI)、“大数据”(BigData)、“算力”(Computing)实现全台技术体系创作生产、全媒体传播、节目评价的全流程智能化革新,目前每天支撑了最高近千万的日活用户数据,以及百万条直播和点播节目的实时播放数据,对运维工作也提出了更高的要求。分布式大数据系统的稳定性、可靠性、安全性至关重要,同样产出数据的及时性、完整性、准确性、一致性也至关重要。构建完善的大数据运维体系,需要从系统层面和数据层面考虑,保证运维监控的全面性,同时需要从组织层面、流程层面保证运维工作的可执行性。

一 运维体系架构

大数据系统的运维管理有三大核心要素:人员、流程和技术。人员是成功的基础,流程是保障,技术是增效器。大数据系统的运维过程,正是人员、流程和技术(包括硬件设备和相关的软件工具)实现整合的过程,并遵循ITIL,针对此过程进行计划、组织、协调和控制。

运维体系中,人员即组织目标,是运维的重要资源,需要进行角色的构建和充分的培训;流程即运维流程和规范,需要建立运维服务流程和体系,包括问题级别管理、问题处理流程、问题与知识库管理、变更管理、资源配置管理等,保证运维工作的实施与运行;技术即运维监控,包含运维监控平台建立、数据监控、系统监控等。运维系统架构如图1 所示。

image.png

二 运维监控

1. 监控系统架构

根据5G 新媒体平台大数据系统的组成,运维监控将对系统中各个过程和组件进行全方位的监控,主要包括蜂巢、大数据平台TBDS、数据仓库、BI、接口、大屏等部分,涉及到系统运维监控和数据运维监控两大部分,基本的关系和架构如图2。

image.png

5G 新媒体平台大数据系统具体的业务流向和数据流向如图3 所示,在设计监控系统时,需要参照图3 的业务数据流程图,做出最全面和准确的监控系统。

image.png

2. 系统运维

系统运维包含硬件和软件两大部分,其中硬件部分指集群中服务器的性能监控,包括CPU、内存、网络、磁盘等基础指标监控,软件部分指各个组成系统的进程和任务等,包括蜂巢系统、5 套TBDS 大数据集群、数仓工具、TDSQL 数据库、ES 集群、BI 系统、47 层大屏系统上面部署的组件和任务、进程等软件系统。

按照自动化巡检为主,人工巡检为辅的原则,建立了一套完整的系统运维监控体系。所用到的自动化巡检工具包括蓝鲸、云控制台、秒级监控平台、自研多云监控、Ambari 巡检平台、Bsidor 巡检工具等,其中蓝鲸监控系统可以自定义监控参数和规则,提高了监控的灵活性和全面性。人工巡检则建立了一套完善的操作手册和规范。

具体系统运维内容见表1。

image.png

image.png

image.png

3. 数据运维

在数据接入、数据处理、数据输出的全链路中,数据在多环境中存储和应用,如图3 的几大系统之间进行流转。对各个数据流转过程中的数据量和数据指标进行监控,可以及时发现数据相关的问题,例如数据丢失、数据延迟、数据不一致、数据不更新、数据计算不正确等,进而保证数据的及时性、完整性、准确性、一致性,不断保证和提高数据质量。数据运维可以分为数据量和指标两个方面,具体如下:数据量方面的运维分为公有云蜂巢数据接入的运维监控和各系统数据同步的监控,其中同步数据量对比包括公有云蜂巢- 公有云thive、公有云thive- 专有云生产环境hive、专有云生产环境hive- 专有云服务环境hive、专有云生产环境hive- 私有云环境hive等,负责检查数据的同步一致性,防止数据丢失。数据指标方面的运维则主要对实时数据指标和批量数据指标进行全面的监控,建立完整的监控体系,及时发现计算错误,保证数据质量。对于系统比较重要的日活DAU 指标和播放次数vv 指标,则采用实时批量对比的方式做监控,并且对于vv 细分到节目,保证数据的准确性。

具体的数据运维内容见表2。

image.png

image.png

image.png

三 组织目标

1. 组织架构

根据5G 新媒体平台的系统架构需要,大数据系统的运维组织应包含一线人员、二线人员、三线人员,其中二线人员需要对关键系统进行重点的保障。故组织架构如图4 所示。

image.png

2. 岗位职责

各个岗位具体的职责见表3。

image.png

四 运维流程

1. 故障处理原则

故障处理原则包括:

◆汇报:问题表现及问题影响评估、判断问题紧急度;

◆紧急恢复:紧急恢复重要业务,可以允许系统未完整修复;

◆修复故障:查明问题原因,制定修复计划、并进行修复工作;

◆故障复盘:问题总结输出及复盘。

2. 问题处理流程

问题处理流程规范如图5 所示。

image.png

(1)故障汇报

一线值班组人员当接收到蓝鲸告警或巡检发现实时任务异常时,先电话联系一线值班组长(或B 岗),值班组长进行初步判断,并电话联系至系统和业务专岗及负责人,值班组将问题现象做描述发送至问题解决群,直至问题解决完成;系统/ 业务专岗评估影响范围,如果影响业务方需及时通知业务侧,由业务专岗按照问题等级发送进度信息,直至问题处理完成。

(2)紧急恢复

一线值班组人员按照《故障修复手册》中的问题修复操作步骤,紧急重启或恢复程序运行,确保实时数据推送至业务侧,确保批量任务计算未延迟,若执行失败或异常,升级问题至二线专岗人员,二线专岗人员需紧急进行恢复;如若是变更上线引发问题,需进行紧急回退;系统/ 业务专岗协助其他专岗处理问题,修复过程中根据不同问题,判断是否进行申请紧急变更。

(3)修复故障

系统/ 业务专岗通过现场/ 远程会议组织各运维人员,立刻沟通、分析判断、定位问题,并商讨出解决方案。各个岗位运维人员需按照问题处理分工,协助一起处理问题,直至问题解决。

业务专岗负责跟踪问题处理进度,并且根据问题等级每10/30 分钟汇报一次进度,以及关键节点及时汇报。

(4)故障复盘

当业务恢复后,进行问题复盘,一线值班人员发出《问题登记表》,业务专岗及其他运维专岗填写故障原因及后续规避方法,必要时需进行系统优化。修复方案需同步更新至问题知识库《故障修复手册》。

3. 问题分级分类

结合业务情况,根据故障发生时的影响范围情况划分,将故障等级分为三级,见表4。

image.png

五 总结与展望

当前建立的运维体系,可以满足目前业务规模的持续增长及系统复杂度的逐渐提高,通过全面智能监控体系,可以及时从海量监控数据中发现异常问题和征兆。故障发生后,依靠工程师技术能力、业务经验、问题知识库进行问题排查,快速准确定位故障根源,减少了不必要的业务损失和运维人力资源的消耗。

未来的运维系统,应该更加智能化和先进化,依托高性能运维大数据处理和工程化机器学习、深度学习算法、智能业务运维解决方案,可实现问题的智能化发现与处理,通过异常检测、动态基线、故障预测、指标预测等手段自动发现时间序列数据中的异常波动;利用根因分析、关联分析、智能分析,实现对海量监控数据与历史数据的关联分析,快速定位问题原因;建立运维知识库,通过问题事件的关联推荐,把解决方法与经验推送给用户,实现快速解决故障的知识支撑。

转载请注明来源:《现代电视技术》 作者:中央广播电视总台 芦丽丽