Page 158 - 全媒体时代短视频内容生产与创新发展

P. 158

全媒体时代短视频内容生产与创新发展
Short Video Content Production and Innovative Development in the All-Media Era

息获取的维度和深度。对热门话题持续监测，预测节目传播趋势，对违规节目进
行预警、报警。其中，定向获取是指由短视频平台按照确定的数据类别、筛选规
则以及推送周期提供后台数据。数据类别包括节目信息类，如节目名称、播放链
接、时长、标签、上传账号、播放量、点赞量、评论量、转发量等数据；账号信
息类，如账号名称、ID、粉丝数、作品数等数据；话题信息类，如话题名称、热

度、播放量、讨论量、话题内节目数等数据；平台信息类，如平台节目总数、日
更新节目数、日新增专业互动基本信息以及平台开屏推送信息、板块、频道等信
息。筛选规则可设置节目按照日播放量、点赞量、评论量、转发量等总量或增速

筛选，每日推送 TOP10000；账号按照粉丝总量或日增幅，每日推送 TOP10000。
按照平台认证信息统计某特定类型账号信息，如广电媒体、机构、栏目、频道、
主持人等开设账号全量信息，包括发布节目信息等，按照数据更新频率，时效性
以及内容研判容量设置相应的周期。
主动搜索采集是指按照指定条件对短视频平台的视频节目进行采集，利用

全站抓取采集技术、动态网页采集技术、防反爬技术、IP 代理池技术、网络钩子
技术等采集方面的技术手段，对平台存储的数据根据各类属性进行筛选采集，如
标题关键字、发布时间、账号、标签、热榜等。

（二）数据分析处理方面，形成多模态识别分析能力
搭建 AI 能力平台，集成各类 AI 分析引擎，通过测试调优匹配出“算法 +
业务数据”的最优模型组合，克服单一算法提供商的技术短板，同时将 AI 能力
进行适配封装，提供硬件、OS 平台之上透明的应用以及服务交互能力。例如，
利用基于 BERT 模型的自然语言处理技术，应用递归神经网络对语言进行处理

后，通过 AI 有效过滤弱相关结果，精准监测文字内容；利用基于分割的 DBNet
的 OCR 文字识别技术，准确识别任意形状的图像文本；通过对各类 AI 分析引擎
的技术编排组合使用，形成多模态识别分析的能力，视听内容本身呈现多个模态，

包括图像模态（封面图、视频帧）、文字模态（视频标题，弹幕评论，OCR、
ASR 产生的文字信息）、音频模态，通过多模态的数据分析，对监管对象进行全
方位的分析，多维度把握视频内容，对视频元素精准分析、定位、识别。通过多
模态情感分析、多模态融合敏感人物识别、多线索融合暴恐内容识别、多模态学
习色情低俗识别等，充分利用音、视、图、文等多种模态信息的互补性，协同增

强内容 AI 识别分析结果的性能，较单一 AI 技术使用在应用效能方面得到较大提

150
150

153 154 155 156 157 158 159 160 161 162 163