Page 158 - 全媒体时代短视频内容生产与创新发展
P. 158
全媒体时代短视频内容生产与创新发展
Short Video Content Production and Innovative Development in the All-Media Era
息获取的维度和深度。对热门话题持续监测,预测节目传播趋势,对违规节目进
行预警、报警。其中,定向获取是指由短视频平台按照确定的数据类别、筛选规
则以及推送周期提供后台数据。数据类别包括节目信息类,如节目名称、播放链
接、时长、标签、上传账号、播放量、点赞量、评论量、转发量等数据;账号信
息类,如账号名称、ID、粉丝数、作品数等数据;话题信息类,如话题名称、热
度、播放量、讨论量、话题内节目数等数据;平台信息类,如平台节目总数、日
更新节目数、日新增专业互动基本信息以及平台开屏推送信息、板块、频道等信
息。筛选规则可设置节目按照日播放量、点赞量、评论量、转发量等总量或增速
筛选,每日推送 TOP10000;账号按照粉丝总量或日增幅,每日推送 TOP10000。
按照平台认证信息统计某特定类型账号信息,如广电媒体、机构、栏目、频道、
主持人等开设账号全量信息,包括发布节目信息等,按照数据更新频率,时效性
以及内容研判容量设置相应的周期。
主动搜索采集是指按照指定条件对短视频平台的视频节目进行采集,利用
全站抓取采集技术、动态网页采集技术、防反爬技术、IP 代理池技术、网络钩子
技术等采集方面的技术手段,对平台存储的数据根据各类属性进行筛选采集,如
标题关键字、发布时间、账号、标签、热榜等。
(二)数据分析处理方面,形成多模态识别分析能力
搭建 AI 能力平台,集成各类 AI 分析引擎,通过测试调优匹配出“算法 +
业务数据”的最优模型组合,克服单一算法提供商的技术短板,同时将 AI 能力
进行适配封装,提供硬件、OS 平台之上透明的应用以及服务交互能力。例如,
利用基于 BERT 模型的自然语言处理技术,应用递归神经网络对语言进行处理
后,通过 AI 有效过滤弱相关结果,精准监测文字内容;利用基于分割的 DBNet
的 OCR 文字识别技术,准确识别任意形状的图像文本;通过对各类 AI 分析引擎
的技术编排组合使用,形成多模态识别分析的能力,视听内容本身呈现多个模态,
包括图像模态(封面图、视频帧)、文字模态(视频标题,弹幕评论,OCR、
ASR 产生的文字信息)、音频模态,通过多模态的数据分析,对监管对象进行全
方位的分析,多维度把握视频内容,对视频元素精准分析、定位、识别。通过多
模态情感分析、多模态融合敏感人物识别、多线索融合暴恐内容识别、多模态学
习色情低俗识别等,充分利用音、视、图、文等多种模态信息的互补性,协同增
强内容 AI 识别分析结果的性能,较单一 AI 技术使用在应用效能方面得到较大提
150
150

