AI大规模介入综艺节目制作, 剪辑师的好日子终于来了

机器之能·2019-07-04 11:51
还记得北京春晚的神剪辑吗,剪辑师真的不容易。

编者按:本文来自微信公众号“机器之能”(ID:almosthuman2017),作者 太浪。36氪经授权转载。

要谈AI+娱乐领域,优(酷)爱(奇艺)腾(讯视频)是避不过的三个山头。

其中,爱奇艺是三家中对外讲述AI技术最多的。

十天前,爱奇艺官宣,其会员数量突破1亿,中国视频付费市场正式进入「亿级」会员时代。爱奇艺还称,1亿会员规模背后,是内容创新、技术创新、生态构建等多方面的综合作用。

技术创新方面,不得不提AI。爱奇艺首席技术官(CTO)刘文峰曾在5月份的爱奇艺世界大会上介绍了AI在爱奇艺整个运营流程中的应用,他称,「AI发挥的作用无孔不入,已经贯穿视频内容的创作、生产、理解、分发、播放到变现以及客服整个流程中。」这建立在AI理解用户和理解内容的基础之上。

在理解用户方面,爱奇艺准备充分。每位爱奇艺的用户都有画像,用户在爱奇艺上的每一次观影行为、搜索行为、互动行为都在为其用户画像提供源源不断的数据,并使它越来越精准。

2017年爆火的《中国有嘻哈》(现《中国新说唱》)便是爱奇艺通过大数据看用户行为、AI分析之后决定做的节目。选吴亦凡、邓紫棋当评委,也是机器和算法在对爱奇艺站内每一个喜欢嘻哈的用户行为进行分析,萃取、提炼出「这些人中,粉男性艺人的,粉吴亦凡比较多;粉女性艺人的,粉邓紫棋比较多」的关键信息后给出的结果。

内容方面,综艺节目一直是内容行业的一个重要分支、能否持续输出高质量、好口碑的综艺节目,决定了视频平台能否掌握未来综艺行业的话语权。《奇葩说》后,自制综艺成为爱奇艺一直坚持的一个内容方向。爱奇艺甚至开发了基于AI技术的大型节目制作系统——爱创媒资系统,辅助大型节目的制作。目前,该系统已经应用于《中国新说唱》《我是唱作人》等综艺中。

01.行业痛点:工作任务庞大、制作周期短

综艺节目的制作在流程上分为前期策划、中期拍摄、后期制作和包装三个主要部分。

业内普遍认为,前期与后期对节目品质的贡献「五五开」,甚至有「三分靠拍、七分靠剪」的说法,后期环节成了节目能否成功的关键。

综艺节目的后期制作,包括剪辑、节目包装、花字制作、音乐音效编辑、调色、合成等一系列精细化生产流程。

但传统的影视节目制作工艺是全程靠手工进行后期制作。「工作任务庞大、制作周期短」,综艺节目的后期制作对素材进行上载、转码,对时间码、挑素材的工作量和时效性要求比影视剧更高,使得后期制作人员在机房熬夜、吃住在机房成为「家常便饭」。

影视圈也是个「吃青春饭」的行业,一项影视行业熬夜现状调查显示,30岁以下的人占比高达79%;天天熬夜的人占了35.64%;因为加班而熬夜的占比68.32%。

比如,拍摄《青春有你》时,将近100个训练生、6位导师,每个人都要有镜头,上百台机器要记录每个训练生的学习生活,拍摄其中一期时,设备一天就生产了3000个小时的素材,最终要剪成2个多小时的节目导出传输,而制作时间只有一周左右。

爱奇艺2014年就开始布局AI,积累了多年的AI技术能力,怎么帮后期制作人员做一些事情?怀着这样的心情,爱奇艺技术产品团队的技术人员进入节目组,去了解综艺节目的拍摄、制作流程,寻找后期制作人员的痛点,并发掘AI的应用场景。

他们发现,实际在整个后期制作过程中,包含大量操作简单、重复性高且繁重的基础性、非原创性工作,比如合板、去除废片、识别精彩镜头、配字幕。

合板,指将多个不同机位的视频素材内容对齐到同一时间线,是后期剪辑的基础。

不同机位的摄像机间可能会有时间差。一秒等于24/25帧,摄像机之间的时间轴差一秒,就千差万别。比如,XX时XX刻,某位嘉宾说了一句话,有两台摄影机同时在拍、同时收声。将两个机位的视频素材合起来后,如果不能精确到帧进行对齐,就会造成重音、混音。因此,需要人工以帧为单位,将不同素材对齐时间轴。

而且,在完成合板之前,无法进行下一步。剪辑师只能等所有素材合完板,有了主体的时间线后,才能接手。进入剪辑环节后,根据主体的时间线挑选素材,cut(剪)出毛片。

由于拍摄过程中可能存在摄影机开机、但是没摘镜头盖或失焦等问题,导致黑屏镜头、模糊镜头等无用素材(也称「废片」)的产生,因此,在精细剪辑之前,需要先去掉这些废片。

进入精细剪辑环节后。便是编剧综合现场观察以及后期拍摄片子的内容,开始思考如何组织剧情,然后和剪辑人员沟通,最终剪出一个完整的片子来。

而在编织剧情的过程中,若是想要某位嘉宾做了某个动作/表情的特写镜头,需要在好几百个小时的素材中寻找,花费大量人力成本。

精彩镜头:吴亦凡、潘玮柏比心

对编剧而言,了解素材内容也是剪辑的基础。因此,需要通过扒词,将视频素材里的所有内容(包括对各位评委、选手的采访)转化成文本。

而传统制作流程中的扒词要经过人工听声音-手动敲字幕文字-校对这一复杂流程。而且,在《中国新说唱》这样的综艺节目中,选手语速较快,且中英文交杂,人工未必能一次就听清选手演唱的歌词;评委和选手间夹杂中英文的小声交流,也会给人工听打字幕带来挑战。

若是人工扒词,1小时的视频,需要消耗2到5小时的时间;人工唱词(包含人工听声音-手动敲字幕文字-校对-字幕机打点),1小时的视频,需要耗费7-10小时才能完成。

而且,并不是所有的剪辑成果一遍就能过关,制片人或导演会进行审核,思路不对或者不达标,则需要不断返工、重剪,直到趋近完美状态。

02.AI的用武之地

「一期节目拍两三天。但是他们后期剪辑要剪10天,10天必须要出一期节目。相对来说,拍的时间还是很紧张的。」编剧、剪辑师们也想花更多的时间在创作上,而不是花大量时间来做这些基础的、比较影响他们创作效率的事情。

于是,爱奇艺技术产品团队便开发出基于AI的爱创媒资系统,通过AI技术帮助后期制作进行海量的视频和音频素材入库、整理及标注,实现素材的快速分类,并建立内容标签,进而辅助信号采集、DIT管理、精准合板、唱词、剪辑及发布。爱创媒资系统还斩获2018年度中国计算机学会(CCF)的「2018年CCF科学技术奖科技进步杰出奖」。

爱奇艺高级总监李顺龙和孙斌为我重点讲述了爱创媒资系统在合板、剪辑、扒词/唱词三个环节中的AI应用。

爱奇艺称,新进播出的《中国新说唱》(第二季)的拍摄过程中,每天有60台以上的机位同时进行拍摄,最长一天录制了近18个小时,有40T的拍摄素材需要合板。用传统的人工进行合板,大概需要6个人同时合板、用时1到1.5天才能完成。

而爱创媒资系统在1小时内即可完成所有素材的合板,且合板精度能达到95%0帧差,5%有1-2帧偏差,节省工作时间1.5天,合板人力成本节约100%。

怎么办到的?通过时间码或声纹将素材对齐。时间码(time code)是摄像机在记录图像信号的时候,针对每一幅图像记录的唯一的时间编码,一种应用于流的数字信号,该信号为视频中的每个帧都分配一个数字,用以表示小时、分钟、秒钟和帧数。现在所有的数码摄像机都具有时间码功能。

使用时间码合板,将多个不同机位的视频素材内容对齐到同一时间线

但也会出现两台摄像机之间时间完全对不上的状况。比如,有些被重置过的拍摄机器会变成出厂时间。

打板也是将素材对齐的一种方式,常用于棚拍综艺。但在真人秀这种有多个场景的节目中,无法做到在所有的摄像机前进行打板,因此,合板工具是一个需求。

打板,「action」,创造一个方便后制人员把声音与画面同步起来的同步点

「每个人的声音都是独特的,像指纹一样。」因此,爱奇艺将声纹作为音视频中识别人物的一种方法,利用声纹识别,快速在大量原始素材中定位某些人说话的所有片段,实现精准合板。

此外,爱奇艺利用声纹识别+ASR(语音识别)+语音分割技术的组合,自动将音频转换为带有说话人的文字内容,后续只需人工负责校对,使得扒词/唱词环节的工作效率提升80%。

(语音分割:必须考虑语境、语法和语义,在一定程度上与文本分割中的一些问题重叠,因为在一些语言中,书写字符之间没有空格存在,如中文和日语,而其他语音中的字符间的天然分割(如空格)直接指明了分割的位置。)

爱奇艺还研发了基于AI的废片识别服务,利用深度学习模型筛除大量废片;以及实现了素材的多维度复合检索,在人脸识别、表情识别、手势识别、动作识别技术的帮助下,剪辑人员可以快速检索人物、时间段、表情/手势等信息,进而找到所需要的素材。

比如,在某个选手演唱时,编剧想找吴亦凡大笑的表情来编织剧情,只需要在「爱创媒资系统」中输入「吴亦凡」+「大笑」的关键词组合,就能马上检索、定位所有吴亦凡大笑的视频片段,进而直接从中挑选出部分片段作为节目的一部分。

据悉,爱奇艺创建的智能明星库中已经收录了100多万明星艺人,目前支持2万多明星的识别。表情识别方面,爱奇艺AI目前可识别笑、微笑、大笑、中立笑、哭、中立哭、生气、惊讶八种表情。

03.其他家AI技术在综艺节目后期制作中的应用

AI在媒资管理系统中的应用并非爱奇艺一家孤例。

因为在媒体资产管理(MAM)系统中给素材做标记是后期制作中一项极其重要且有效的任务,但相当乏味。而AI可以轻松执行这项任务,而且可能比任何人都更加多样化,速度也比任何人类快得多。

如果分析和标记一整天的视频只需要几分钟,而不是几个小时,同时提供比人类尝试更有价值的深度信息,那么效率和生产力都会显著提高。

共享媒体工作流协作解决方案开发商 ELEMENTS 和人工智能解决方案提供商 Veritone 就达成了一项新的协作。新的联盟允许 ELEMENTS Media Library 的客户利用 Veritone 的人工智能技术(包括语音到文本的转录、人脸识别、翻译、物体识别、内容审核、标志识别和光学字符识别)自动提取和分析元数据。

通过集成Veritone的aiWARE平台,ELEMENTS的媒资管理除了管理、共享和给媒体资产做标记外,还将能够利用认知引擎和功能强大的应用程序进行自动监控,进而分析、剖析和检索视频和音频素材。

并且,新AI功能将由ELEMENTS Media Library用户直接通过Adobe Premiere访问;因此,编辑器可以在不使用单独浏览器的情况下,直接从Premiere工作站搜索其媒体素材,从而充分利用各种优势。

除了爱奇艺,我也将「AI在综艺节目后期制作中有哪些应用」的问题抛给了优酷,相较于爱奇艺用AI提高后期工作人员的工作效率,优酷更倾向于用AI提高收视效果。

优酷告诉机器之心:在内容制作环节,通过内容理解AI,优酷实现了对视频中各个片段的理解,同时也会提供智能分析,反哺内容创作,指导后期的剪辑与内容优化。

以《这就是街舞》(第一季)为例,通过AI收视率曲线分析,能轻松获取到观影用户的喜好,比如在第五期各队齐舞环节,每个齐舞的收视高低就一目了然,节目组则会根据曲线的走势不断调整优化剪辑,提升收视效果。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业