您好, 访客   登录/注册

视音频AI技术在广电行业的展望

来源:用户上传      作者:

  摘 要 为人熟知的爱奇艺、腾讯视频、优酷、搜狐视频等互联网媒体,利用视音频AI技术、大数据处理技术构建了自己的视音频内容处理业务,解决了仅靠人工手段已无法支撑的海量视音频内容的标签化处理。在媒体融合背景下,如果将这一技术运用到广电行业的媒体资产管理新模式中,无异于将广电的内容处理业务拉上了快车道。
  关键词 视音频AI技术;广电;内容处理
  广电行业近年来在生产业务领域推进“中央厨房”、“融合媒体平台”以及目前正在推进的“超高清节目生产制作”等多种业务模型以及配套系统。
  以各电视台现有媒资系统为例,已经重点解决了数据化以及资料长期有效保存的问题;同时各台也还需要每年固定投入解决视音频内容的人工编目、人工审核等问题;但随着技术的进步以及内容生产领域的需求发展,这种以人工手工编目的方式,也实实在在带来了诸多问题。例如编目信息录入的就能检索到、编目信息未录入的则无法检索到;特别对各台新建的“中央厨房”和“融合媒体平台”,当天新上载到系统的在线视音频资料、在无法及时进行人工高效编目的情况下,实际上无法很好地实现资源共享。
  再研究学习互联网媒体如何处理海量的视音频内容,我们发现为人熟知的爱奇艺、腾讯视频、优酷、搜狐视频等互联网媒体,利用在阿里、百度、腾讯、科大讯飞等IT巨头的带动下发展尤为迅速的视音频AI技术、大数据处理技术构建了自己的视音频内容处理业务,比较良好地解决了仅靠人工手段已无法支撑的海量视音频内容的标签化处理。
  1 广电行业内容处理业务现状
  重庆广电集团(总台)早在2005年就率先提出“媒体内容平台(DCMP)”概念并落地建设以内容管理为核心的媒资系统,为当时业内探索出了一套广电媒资系统建设模式、建设方法。
  1.1 管理投入大、产出低
  建设一套媒资系统,对省级台而言基本都在千万级别,而建设完成后基本是作为历史资料的归档系统使用,并且构建起在線、近线、离线等多级存储管理体系。随着内容的增长,各种存储资源、编目投入等每年都必须投入,才能基本维持视音频历史资料的存储需求。
  1.2 编目效率低、成本高
  当前基于广电编目标准的编目方式,是一种线性的视音频资料处理方式,极度依赖人工处理。这种编目方式对编目人员水平、审核人员的经验等都依赖很大,所编目的信息很难完全表述清楚视音频内容本质,存在巨大的信息缺失。要进行精细化的人工编目,比如到镜头层编目,其投入又是巨大的,目前仅部分珍贵资料会采用到镜头层的昂贵编目方式。视音频资料越是缺失到镜头层的信息,在检索的时候就很难查找,越难查找编辑记者就越不使用媒资系统,造成媒体资源应用的恶性循环。
  1.3 适应范围窄、使用频率低、时效差
  当前视音频内容都是进行编目、审核、发布后才可供编辑记者使用,这种模式已不能适应媒体融合的需要。比如,台里新闻节目播出后,其APP端在拆条后,几乎是同步发布,不可能等到编目审核发布再使用;再比如,“融合媒体平台”新上载的素材,在编目之前是无法被有效查找到的。而APP端进行内容生产时,对视音频内容的需求是实时的、动态的、非线性的,目前的线性视音频编目手段在效率、时效方面都无法满足新业务形态的需求,这也是目前建设的融合媒体平台很多都自带内容处理功能,但其效率却仍然无法适应新业务形态的需求。
  虽然存在以上诸多问题,但之前媒资系统的建设为我们打下了良好的基础,我们需要解决其中存在的效率问题、成本问题以及业务适配问题。这些问题的本质是视音频资料的结构化问题,即采用何种方式对视音频资料进行结构化处理的问题,采用何种方式能够把对视音频资料尽可能的描述清楚,并且成本最优。
  2 视音频AI技术的发展
  2.1 当前视音频AI技术发展现状
  当前视音频AI技术在安防、交通等行业已经广泛应用,尤其是其中人脸识别、语音识别、OCR识别的成熟度已经达到了商用级别。
  以BAT为代表,分别在语音、人脸方面较为突出的科大讯飞、商汤科技等多家在视音频AI能力上的主流公司,总体情况如下:
  人脸识别方面是最为成熟的,正脸识别精度能够达到95%以上,大于60%侧脸识别率能够达到85%以上。在弱光、强光、小于30%侧脸的情况识别率较差。
  语音识别方面是也是较为成熟的,播音普通话的识别率能够达到99%以上,地方方言方面针对广东话的识别率较高,其他地区方言识别率较低。
  OCR识别方面,比如:会议标题、台标、新闻标题栏等识别较高,其他方面识别较弱。
  场景识别方面,比如:画面中的蓝天、草地、大海、高山等识别较高,其他方面识别率较差,不能达到商用级别。
  2.2 视音频AI技术应用于广电的优势
  视音频AI作为一种先进的技术,本质上需要结合行业的应用才能发挥最大效率,行业内部也需要构建一套核心的“视音频AI标签体系”AI技术才能发挥作用。在互联网媒体,优酷、腾讯视频、爱奇艺都有自己有的“视音频AI标签体系”,任意一条视音频在互联网媒体都是视音频AI引擎基于构建的“视音频AI标签体系”自动处理,为每一条视音频进行自动的标签标注,然后才是人工的少量参与。这种处理方式与广电行业内的现有处理方式有如下几点优势:
  优势 1:识别范围广
  人工编目时关注点非常有限,视音频AI引擎没有这个问题。随着“视音频AI标签”的不断增加,AI引擎识别能够不断增加识别的广度。可能最初的“视音频AI标签”内容不够多,但随着“视音频AI标签”不断增加,引擎学习模型的不断迭代,识别的内容和准确性也都会随之大幅提高。
  优势 2:成本低、效率高
  机器的效率远超过人的效率,而且机器可以持续运行,人工编目视音频受限于物理播放的时间,而机器可以随着物理计算能力和算法效率的提高来提升结构化速率。目前基于人脸识别、语音识别的效率可以达到20倍速以上,即对60秒视音频内容中的人物(包括画面中人脸、语音中的人名)识别完成在3秒左右。   优势 3:可迭代、可复用
  “视音频AI标签体系”一旦构建,可以打通目前各种生产业务的内容获取环节,打通传统生产、新媒体生产以及历史资料保存各个环节对资料调用需求。随时视音频标签的不断完善,可一次建立、重复利用。
  3 对构建广电行业视音频AI标签体系的思考
  构建“视音频AI标签体系”在技术上已经具备条件,但在广电行业内构建、推广以及应用是一个体系工程,与十多年前构建广电行业编目标准对行业的发展有着重大推进作用一样同等重要,需要行业内部协同发展,并且达成共识发展成行业标准,将对行业视音频内容处理领域的打下基础。
  重庆广电集团(总台)在未来考虑构建“视音频AI标签体系”并进行全新智能检索模式的探索,还需要完成的工作:
  (1)通过借鉴互联网公司、媒体先进的视音频AI技术,找到解决目前资料在编目、检索等应用场景下采用视音频AI技术手段,以替代目前高投入、低效率的人工编目方式,以及解决检索不到、检索不准的内容检索难题。
  (2)对视音频AI能力、应用场景进行全面实践,为集团在其他重大项目的建设上次提供决策依据以及参考应用点。
  (3)以此为基础,为广电行业视音频内容处理模式进行创新,探索广电媒体内容视音频AI标签体系的标准化和智能检索体系的标准化。
  (4)积极探索在互联网大环境下,进一步深度挖掘和利用广电媒资的资源的模式,以期实现更为广义的广电行业媒体资料的大数据应用场景。
  从行业发展角度,我们也重点思考了如下各个方面的问题:
  (1)行业内是否可以建立一种“视音频AI标签”共享机制,即“一次標注、行业通用”,比如:针对时政人物、娱乐明星、先进典型等多种公共人物的标签,构建行业通用的、共享的标签库,都可以基于该标签库进行采用视音频AI自动处理,避免重复标注,规避目前各台都投入大量人力、物力进行编目的状态。
  (2)基于“视音频AI标签体系”结构化的内容是否可以建立行业内“共性内容整体挖掘机制”,比如:针对“滴滴顺风车事件”,各台视音频内容中都存在此类报道,可以自动形成专题、联合版权共同面对互联网端发布。
  4 发展前景及展望
  重庆广电集团(总台)近年来一直关注视音频内容处理领域的发展,在视音频内容处理研究方面都非常重视。通过研究互联网媒体在视音频内容方面的应用,我们了解互联网媒体采用的“视音频内容标签体系”方式进行视音频结构化处理,并在“标签”的基础上以大数据技术为核心构建智能检索体系解决视音频内容的结构化及检索应用;当然,互联网企业的“标签”更适应他们碎片化的应用模式,并不能完全照搬到广电行业。
  那么我们在构建“视音频内容标签体系”过程中大量采用人脸识别、语音识别、OCR识别、场景识别等AI技术,广电行业也可以根据自身业务特点“构建广电视音频内容标签体系”,以该体系为基础探索发展新一代智能化视音频处理与检索应用模式,为“中央厨房”、“融合平台”、“超高清制作”等业务提供内容处理支撑手段。
  在媒体融合大背景下,如果我们将视音频AI技术很好的运用推广到广电行业的媒体资产管理平台中,无异于将广电的内容处理业务拉上了快车道。
转载注明来源:https://www.xzbu.com/1/view-14900821.htm