“云端一体”的智能媒体生产制作演讲之路
正文字數:13220? 閱讀時長:12分鐘
智能媒體生產制作的鏈路當中,生產制作是核心,智能是輔助,那么AI技術是如何融入在整個生產制作流程當中的?阿里云智能視頻云?高級技術專家 鄒娟在LiveVideoStackCon 2020北京站的演講中就智能媒體生產制作的技術演進之路,從三個部分為大家帶來詳細的講解。
大家好,我是來自阿里云視頻云的鄒娟,在視頻云負責媒體生產平臺的架構設計和開發工作。我今天分享的主題是“云端一體的智能媒體生產制作的技術演進之路”。我的整個分享將會從三個部分來展開。
01
? ? ? ? ?媒體生產制作技術的演進
TITTLES
如果我們把制作放大到整個視頻全鏈路的范圍來看的話,那么視頻全鏈路是把它抽象成了五個環節。從采集開始歷經制作管理,最后是分發和消費。實際上從以前到現在這么多年,視頻技術在整個行業也發展了好幾十年。那么在整個這個環節的這個流轉當中,視頻全鏈路的每一個環節中以前跟現在都發生了很大的變化。
比如說在采集環節,我們從最開始的采集過程必須要通過專業的像索尼松下這種攝像機來去拍攝,到現在我們用手機就能夠拍攝視頻。那在制作這個環節,我們從最開始必須要用專業的非線性編輯軟件和桌面上這樣的工具,或者是像這種演播車和硬件導播臺來去做后期或者實時的制作。到現在我們可以在手機上一鍵美顏,也可以在web上做在線的剪輯。
從管理來看,我們以前傳統的模式是我們需要用人工的方式去進行元數據的編幕。歷經很多個審核的環節,到現在我們可以用智能思維來構建動態的元數據體系,然后去做知識圖譜的素材之間的挖掘。我們可以用智能審核去減輕審核的壓力,去提升整個流程的性能。
可以看到整個發展的路徑,從最開始都是靠人工到現在我們可以用智能化的方式去融入整個過程當中來提升整個的效率。
以前制作視頻的都是專業的機構來制作。像電視臺或者電影電視制作公司來制作。到現在每一個老百姓都可以去來制作視頻。整個的趨勢就是從人工到智能,從小眾到大眾。
最后分發和消費環節其實是一個環節。從我們以前很傳統的一個被動的接收,像最早看電視的被動接收模式,到現在我們可以去互動,可以去按需求個性化的去選擇我們所看到的內容。整個媒體生產的這個演進過程,實際上就是從一個很專業的門檻到現在一個普惠的變化。
現在關于制作本身的話,其實我覺得是有兩方面的因素。第一個是手機的廠商,把視頻拍攝的這個技術能夠更大更加深入的在手機上應用起來。所以在手機上我們可以拍攝很高清的視頻。
另一個是抖音快手這種短視頻的平臺,它提升了普通老百姓對于審美的追求,以及對于視頻質量的追求和視頻產量的要求。所以在整個過程當中,制作這個環節越來越重要了。
我們再放大到制作這個本身過程,看一下媒體生產制作模式變遷的過程。
最早的時候,我們其實整個視頻制作是線性編輯的過程,也就是用對編機一邊放一邊錄,甚至最早的電影制作階段是要去剪膠片的,要把膠片去做一個正片,然后去用剪子剪開,后續用透明膠帶粘起來。然后到了八九十年代的時候,出現了一些專業化制作,視頻編輯可以用一些軟件去做。到中間階段我們可以把制作分成兩個模式了。第一個是現場制作的,然后還有一個是后期制作。
在上一階段的現場制作的過程中,我們一般會用這種如演播室或者是硬件導播臺,或者是轉播車來實時制作。到后期使用非線性編輯軟件來做。整個的生產制度模式是音頻、視頻和圖文,它們是分開來做的。有專門的字幕制作設備和機器來做。通過進一步的發展,現在這個階段,我們增加了一些云端制作和快速制作的一些方式。比如說我們的現場制作,可以在直播的過程中實時的去疊加很多的東西,做很多的加工。然后在云端把硬件導播臺換成云導播臺,在云端去實時做個性化的導播的切換。
在后期制作這個環節,我們不再只局限于用非線性編輯軟件來做。我們可以在云端使用云剪輯,然后在手機端用短視頻app制作工具進行視頻制作。生產制作模式發生了很大的變化。生產制作模式是在原有的基礎上疊加了一些新的場景和模式。
整個云計算和AI的發展,實際上是補充了很多新的一些生產制度模式,能夠讓內容的生產方式會更加的豐富。在整個過程當中,AI在整個現在整個制作的模式的變遷過程中,它起到的是一個輔助的作用。我們希望未來AI能夠達到智能創作一些有故事的視頻的階段。
這是我們視頻云在整個智能化制作中演進的路線。
首先,我們有智能化的這樣制作的需求。那我們第一步要做的是什么?我現在有很多的AI的算法的能力。那這些能力很多是可以跟制作這種行為和流程有關系的。這里有一些,比如跟視覺相關的分鏡,人物的識別,視頻的分割,包括視頻畫面的主體的識別關于聲音語音識別,語音合成,然后也有一些跟顏色相關的,比如說顏色的分析,還有調色。然后還有一些跟某些圖片內容相關的。比方靜態、動態或智能的視頻封面。這些我們能夠想到的。在制作領域可能會用到的原子的AI的能力。那我們第一步是把這些原子的AI的能力API化,能夠讓它透出來,能夠讓大家看到。
第二個階段我們做了一個智能的體驗館。因為AI的原子的能力可能藏在后臺,只放出API的話,可能沒有辦法給人很直觀的體感。
所以第二個階段,我們做了一個體驗館,然后能夠讓很多客戶能夠來去嘗試,去用這樣的一些能力,看到這樣的一些效果。經過了第二階段之后,我們發現就是有一些客戶會去針對其中的一些點會感興趣。因為這些AI的能力是很多的,但是針對不同的場景,可能客戶關注的點也是不一樣的。
我們抽象了幾種應用,就是從內容的策劃到創作的包裝的管理。客戶可以在體驗館上能夠提交自己的反饋。經過這個反饋,我們就了解到了這客戶的一些需求。
然后于是我們可以做將它真正的變成云服務的過程,實際上就是第四個階段。因為把一個原子的AI的能力,API化,和我們能夠真正地提供一個云服務,這中間的gap 是巨大的,所以我們做了Meta 體系的構建,比如我們做了基礎元數據,提供了一些標簽庫,人物庫、鏡頭庫,并且從工程上去做了很多數據的服務體系,還有日志和監控的體系。把這一套都做完,才能算是我們做了一個可提供給客戶的服務。
到了第五個階段,我們發現只把這些服務能夠很健壯的穩定的提供出去是遠遠不夠的。客戶可能需要的,不是說人臉識別的結果,而是需要解決實際場景中的問題。這里我們就需要就進入到下一個階段,我們只提供元子的服務是不夠的,我們必須要把這些AI 的服務跟我提供的場景去結合起來,能夠為生產制作本身發揮作用。那在這里我們就抽象了一些場景,比方說像圖文合成視頻,像模板工廠的,按模板化的來生產視頻,比如說像直播剪輯,比如像智能字幕,像智能配音等等。那這樣的場景才是客戶最終需要的。所以在第五個階段,我們把整個制作和AI 去做了結合,提供了一波場景化的這個制作服務。
在整個過程中,我們會依賴像媒資系統,剪輯系統和版權系統,然后會做這樣的任務的調度和策略的解析,然后把不同場景里的服務去使用不同的策略去實現。所以可以看到我們整個視頻云在智能化的制作的過程不是一個憑空想象的過程。AI 的能力,是需要跟場景結合起來,才能真正的為客戶提供服務的。
02
? ? ? ? ? 云端一體的架構設計
TITTLES
在講架構設計之前,我想先給大家分享一下我們之前所分析的一些媒體市場制作的核心組成和核心痛點。實際上我們知道,在媒體生產與制作的過程中,我們可以將整個的制作過程抽象成四個階段:創意、素材、剪輯與包裝,以及渲染與合成。
第一個階段是創意的過程,也是目前我認為耗時最久的過程。首先,創意的門檻比較高,然后很燒腦。比如說做我家小孩某次出游的視頻,這樣的我自己想做這樣一個視頻,我要想,我要怎么去做,做出來應該有一個什么樣的樣子。所以創意的過程是非常燒腦的。然后在創意的過程當中,我是需要去收集或者是去編排很多素材。那這個素材的收集和挑選就成了一個老大難的問題。那如果說我是在做一個需要多人協同來去完成的一項工作的時候,我會發現我的共享也很困難。并且當我拍下來的原始的素材,可能它的體積會很大,尤其是這些素材需要在多人之間流轉的時候。文件大小也是很突出的問題。
到了第三個階段是素材我已經大概找好了。但是最終,是需要能夠把它通過剪輯或者包裝的這樣的手段,能夠最終能夠實現我想要的一個效果。那這個時候我就發現工具非常復雜,用起來非常復雜。
比如說我周五的時候做了一個大概4分鐘的視頻吧。從創意過程大概花了我4個小時,然后收集素材又花了兩個小時。最后我的在整個剪輯和包裝的過程又花了我好幾個小時。所以我從周五從中午就開始琢磨這事兒,最終那個視頻是在周六的凌晨兩點才出來的。
所以工具的復雜,素材巨大傳輸的不便,還有包括協作的不便。這樣的場景可能適用于非個人制作,需要多人去協同完成。
所以我們設計了一套這樣的架構。
我們這套架構的核心的點是包括了云的部分和端的部分,并且整個的架構它不是通常那sars工具這樣的架構。它是一個云+端,可分可合的開放架構。
首先,中間這個部分是生產工具的部分,這個部分也是大家最容易想到的,因為我們在進入云剪輯之前,我們都是在用一些客戶端的工具來做。
在整個過程中,我們的工具會抽象成三個組件。其中最核心的是這個故事版的組件,也就是時間線。其中還有兩個子組件,一個是播放器,因為要去在播放器上去預覽剪輯過程的效果,并且還有一些效果編輯的一些組件。這些組件會完成針對視頻音頻包括貼圖,包括字幕的一些各種效果編輯。
最核心的是我的預覽的渲染引擎。這個其實組成了生產工具的一個端側的組件。在這個端的話,實際上我們最開始只做了外部端和移動端。而且最開始的時候,外部端和移動端它的時間線是沒有統一的。在這個過程當中,最終是這樣一個架構。開始可能這個架構比較簡單,我們只考慮了外部端,沒有考慮某外部端跟外部端的協同。現在我們是一個多端統一的架構。
在整個在右側,是我們的一個生產制度的服務端,相當于我們把整個云服務的體系劃分成了三個組件。其中最核心的是時間線的處理中心。也就是當我拿到了一個時間軸,這個時間軸上有很多的軌道素材及效果。我需要對這個時間線進行處理。因為有可能我拿到了一個時間線,是一個我的客戶直接通過 API 請求提交過來的時間線,那么這個時間線的參數可能會有很多的問題。
如果我簡單粗暴的把它拒絕掉的話,那么整個體驗是比較差的。所以我們在服務端做了很多的容錯校驗和補全,以及預測的機制,能夠讓這個時間線呈現給客戶所預期需要的狀態。最終通過模板工廠降低整個門檻。渲染合成是最終的硬實力。我們支持多層的視頻,然后多軌的混音,并且支持智能的引擎去調度到不同的底層,有特效引擎去用來做視頻的渲染。
可以看到 API 的左側、API 的右側的部分(上圖中),分別是端和云的部分。整個的設計是這兩部分可以獨立來使用的。比方說我可以只使用外部 sdk 的部分,我也可以只使用云端的部分,或者直接不使用外部 sdk,直接通過請求來去調用。
當然也可以在一個 SaaS 化的工具上,把這兩個部分去融合。這個是我們一個云端可分可合的架構設計,它的設計初衷是,不是一個純 PaaS 或者是一個純 SaaS ,或者是一個只是端和云的結構,它是一體化并且可以拆開的一個結構。在這個結構的上面,是我們基于結構包裝出來的一些服務和頁面。這部分是可以由阿里云來做,也可以由我們的客戶來做。最終上面的是我們的一些場景。我們可以把這些技術抽象成一些場景,能夠在這些場景上用到我們這些技術。
最左邊的這一塊實際上是我們后來加上的,在開始我們做第一版的時候,是沒有 AI 部分的。把 AI 的這個部分加上來,是為了能夠智能的對時間線做一個編排。對時間線的編排,我們把它抽象成了三個場景。
第一個場景是創作類的場景。第二個是增強類的場景。第三個是替換類的場景。在這三個場景當中,我們可以對素材去進行分析,拿到一個初步的時間線,并且將這個時間線跟人工的時間線再去做一個結合。生產一個最終的時間線。
所以可以看到在整個智能制作中最核心的關鍵點是關于時間線的設計。因為時間線它描述了多個軌道,然后多個素材按照一個創意,去編排、做多種效果融合的這樣的一個產物。
所以后面我們要講的是一個我們對時間線的設計。
對于時間線,現在業界是沒有一個標準的。不管是專業的還是云端的,實際上都是沒有標準的。
我們來看一下專業的非編,像 3A(Apple/Avid/Adobe),每一家都有自己定義的時間線結構。這些專業非編它的設計都是多個軌道的設計。首先它們肯定是音軌,視軌。
視軌是有多個軌道,并且它的素材和效果的設計都是各不相同的。當然也有傳統EDL的這種設計。這種設計的話相對來講是比較簡單的,它只有單軌,只定義的素材,但是它沒有定義效果。因為效果在不同廠家之間的描述是不一樣的。我們基于這樣一個現狀,我們做了云加端可以復用的設計。我們是在時間線的核心四個要素,就是軌道、素材、效果和舞臺中間進行一個取舍和平衡。
首先來講特效這個東西是比較復雜的。在一些專業的設計當中,特效軌道是獨立出現的,很有可能是獨立出現的。在我們這個設計當中,特效軌道不強求獨立出現,它可以作為視頻素材的一個屬性來出現。這樣是為了降低云端用戶和互聯網用戶的使用復雜度。
同時我們會保留軌道素材的設計,然后軌道素材所指向的原始視頻僅僅是一個引用的關系。這樣的話是為了增加應用性。否則的話整個時間線的設計會非常的臃腫。
另外,我們為了考慮后面的可擴展性,我們對整個時間線做了一個多軌的設計。因為最開始,很多智能制作在設計的過程中,都是單軌。但我們做第一版設計的時候,就考慮了一個多軌。因為多軌的設計可以保證之后程序迭代的過程中,不會因為打地基打的不好,而在原有基礎上做顛覆性的改造。
所以我們在開始就把這個軌道按照素材類型去做了一個多軌的設計。最后,我們對于輸出的畫布,也就是輸出的舞臺的設計,是一個自動化、個性化和自定義結合的設計。既可以在不設置布局舞臺的時候,能夠根據原始素材的分辨率做自動的輸出,也可以通過指定布局的方式做自定義的布局。
因為云端的設計需要考慮很多,要考慮很多不同的場景需求。可能絕大部分場景是 4:3、16:9 或者 9:16 或者 3:4 這樣的需求。還有一些特殊的場景,它的分辨率可能是需要自定義的。所以我們整個的設計實際上是在軌道效果舞臺和素材中間去進行了一個取舍和平衡。
(圖中)左邊的 timeline 的四個要素,是我們整個設計的核心元素,也就是時間線抽象成四層,每一層都是逐層遞進的。可能一個 timeline 有多個軌道,每個軌道有多個素材,每個素材有多種效果。效果可以由人編排,也可以由機器編排。最后輸出到舞臺也好,畫布也好。
這是視頻最終輸出的一個形態,這四個要素是時間線設計的核心。
時間線整體是比較復雜的。如果我自己要組織一個時間線的數據結構的話,我的工作量會非常大,使用起來也會非常痛苦。我們為了降低這個就是說時間線使用的門檻,并且同時還保證專業性,我們就做了一個模板工程的設計。
在模板工廠的這個設計當中,我們會抽象出一些模板來。
這些模板是相當于把時間線的完整的部分或者是時間線的一小部分去進行抽象,然后用參數的方式去指定。比方說我現在有一個模板,它就是做多個素材的拼接。那如果我用原來的模式的話,我可能要傳一堆的拼接的視頻的參數。那我如果做成了一個模板的話,可能它只需要傳入視頻的ID就可以了。那在整個模板的設計過程中,它也支持嵌套或者組合。
比方說我們做的比較炫酷的一個視頻,可能會包括素材的編排,可能會包括效果的切換。可能會包括疊一些動圖或者是加一些字幕。那我們可以對這個模板去做嵌套和組合式的設計。這樣的話最大的復用模板的一個成果。那這個模板工廠它核心解決的問題就是我們在使用時間線的門檻。更重要的是我覺得它還解決了一個創意的門檻。比如我作為一個非專業人士,我拿到一堆素材,我想要做一個視頻,我可能會無從下手。但如果提供給我一些模板,按照模板來制作的話,可能就會啟發我的思路。我還可以對模板進行修改再加入我自己的一些創意元素的話就更加完美了。所以前面一個設計是時間線,它實際上是做了在整個制作領域的專業度的保證。那模板工廠的話實際上是真正在包裝和使用上,能夠在保證專業性的同時,能夠降低門檻,能夠把整個制作普惠給每一個想要制作視頻的民眾去用的設計。所以這兩個就是我們認為在整個制作過程中最核心的兩類。
因為前面的架構比較干澀,是一個純技術架構。那最終數據是怎么流轉,怎么能從最原始的素材到最后合成出我想要的視頻呢?
它的流程是這樣的。我的左邊是素材,我的素材和我想要制作的視頻是一脈相承的。原始素材是有很多的類型的,可能會有音視圖文,有一些副文本,甚至會有html 代碼片段。這些都是我的素材庫。
到了中間的過程,是最核心的智能生產制作鏈路。首先我的素材會經過一系列的AI處理,拿到結構化的信息。
在拿到結構化的信息之前,會先對素材進行處理。比方說會先去分析這個音視頻的流信息,包括一些尺寸信息格式信息,這些信息會輔助中間智能生產過程中的輸入。之后拿到這個預處理的信息之后,會對整個智能化的這個過程去做一個分析。這里的分析是多維度的。輸出的可能是視覺層面上跟時間軸相關的,或者是跟時間區間相關的,也有可能是語音方面的,還有可能是一些顏色的配比,還是實時過程中摳像出來的像素集。然后拿到這些經過處理的數據之后,我就可以去跟工具結合制作了。
當然這些工具并不是每種工具都會用到每種能力。但是這些能力都可以作為這些工具的輸入。工具的也是有多種的。包括移動端及web端、通過模板化批量化來生產的,以及通過AI的方式來輔助的。最終我們會有一系列生產效果。
圖中智能生產制作右邊這一部分,就是在制作過程中最常用的效果的抽象概念。
比方說我們會用到多層的圖像的疊加,這個圖像可能是視頻,有可能是圖片,會用到多軌的混音調音,用到圖文在同一個軌道上的混編,會把素材的效果去做一個濾鏡或者轉場,會對一些直播流做前景人物或者主體的實時的摳像,也可以做智能的字幕。還可以做智能的集錦。也就說通過對視頻的分析去提取出這個視頻的精彩片段做一個集錦。
當然還有一些綜合的制作過程,就是需要人工和智能去結合,來完成整個制作過程。
最終輸出的話,實際上我們也把它抽象成三類。
第一類是用于分發播放的成片。成片我們可以把它總結為創作類,集錦就是創作類。
第二類是增強類:視頻本來沒有字幕,通過語音識別加上字幕,這是屬于增強類的。
第三類是替換類:主播直播時的背景不太美觀,把背景替換成較吸引人的背景。
這個是輸出成片的3種類型,當然還可以輸出的是素材,輸出的是素材時候,輸出的內容是可以用于二次制作的。
這些素材其實是有的時候是比成片更為寶貴的。因為它是可以反復利用的。我們這套系統也能夠輸出素材。
最后我們在技術上并不是跟專業非編對立的,我們和專業非編是技術上合作的關系。
我們的模式相當于是互聯網方式的新媒體剪輯。我們需要專業場合的時候,可以在云端做一個粗剪,然后在線下去做一個精編。這樣可以把時間線去做一個交換,能夠把整體的效果達到最優。
所以說我們在整個媒體內容消費過程中,得到一些反饋的體驗,又會回饋到AI的體系。在數據上成一個閉環。推動這些算法繼續迭代。同時的話我們生產的內容也會回到媒資庫。回到媒資庫之后,這些內容同時也會作為下一次視頻制作的一個輸入。大家可以看到阿里云在整個智能媒體生產制作中,設計的中心理念,是以生產制作為核心、AI 輔助。
03
? ? ? ? ? 生產制作為核心、AI 輔助
TITTLES
阿里云在整個制作的過程中是以生產制度為核心的AI只是輔助。但是我們為什么還需要AI呢?就是為什么還那么重視AI呢?
當最開始我們最原始的階段是所有的東西都是由人來去編輯的,時間線的編排也是明確的,完全由人來主導。但是有一些場景是人比較費時間來主導或者不那么容易主導的。
舉個例子,比方說幼兒園監控視頻。家長說我特別想看到我們家小孩在幼兒園的表現,那從監控視頻一幀一幀找自己小孩是非常費勁的。海量的視頻要去處理的時候,會發現通過人已經沒有辦法去處理識別了,所以產量會很低。
當我們從人工編排方式要進化到大規模化的制作方式時,以及需要大幅度的提升自我效率的時候,我們勢必要通過云計算和 AI 相結合的方式來做這件事情。
在整個過程當中,我們是要使用 AI 的能力。我覺得這個也是AI最大的魅力和價值,就是它能跟云計算很好的結合,能夠為規模化制作以及海量素材分析提供幫助,提升媒體制作的一個效率。
接下來我會從三個實際的例子,來跟大家分享一下 AI 技術跟生產制作流程的一個融合。
這是一個我們一個在云上轉播的一個例子。在這個例子當中,我們可以看到傳統的轉播可能在現場有很多機位,有很多鏡頭,拍下來很多的視頻素材。
但是我們在電視上看到的就是那幾個頻道,可能很多的視頻素材被浪費掉了。我們在電視臺看到的,是現場導播給我們生成的這樣的畫面。但實際上還有非常多的視頻素材沒有利用上。
因此,我們做了一個云上轉播的一個架構。技術邏輯是這樣的,我們首先還是會把視頻的直播流,通過直播中心保存下來。然后我們用云端的導播創建多個導播的實例,在每一個實例可以使用不同的視角去做我想要的導播的場景。
云轉播因為可以在互聯網上分發,所以它對于原始直播流和素材的利用率是非常高的。我們也可以把這個視頻收下來,進入這個直播的錄制的過程。對這個實時的直播流用AI進行快速的處理。
在冬奧會轉播之前,青奧會的演練有一個例子。我們當時是做了三種體育賽事的演練。針對這三個賽事,我們對運動員的運動軌跡進行跟蹤,做云端的分析。然后把每一個運動員每一段運動當中精彩鏡頭通過AI處理的方式,利用云端剪輯的方式快速的生成素材,并且把素材又轉推成視頻流,再回轉到云導播的輸入,這相當于是對單邊的直播流的收入。
另一方面是我通過實時技術去自動生成了這種回放集錦。并且在鏡頭之間還可以加一些效果。那這個時候其實如果不考慮完全實時性跟硬件導播臺的差別的話,其實整個生產制作的模式已經跟傳統的模式非常接近了。
我們的魅力就在于說,我們可以把非常多的直播流的利用起來。尤其是在一些賽事上,有些國家的運動員可能并不是前三名,可能這個播放鏡頭沒有給到他們太多。但是這個國家的民眾會非常關心自己國家的運動員。那這個時候我們可以通過這樣的技術去讓每一家機構都是一個導演,然后都能夠去做整個轉播過程,從直播流中導播自己想導播的畫面。所以云直播的流程是把AI的能力和實時制作及離線或后期制作進行連接,同時能夠大規模的利用上我們的系統,并且能夠讓所有的直播流都能發揮它的價值。
這是我們在云直播技術上的一個應用。
這個例子其實也是使用率比較高的。我們在做一個片子的時候,我不可能每一個節目都是用完全不一樣的創意。當我需要想復制我的創意的時候,但是我又需要我復制的不那么生硬的時候,我可能會非常需要這種場景。就是一個成片的模板化的制作,就是我的素材庫可能是很多的。
前面也有講到我們的素材庫,可能是這個直播流,也有可能是這個離線的視頻文件,還有可能是一些純音頻,可能是人聲,可能是背景音樂,然后有可能是一些字。那這些字幕可能是外掛字幕,也有可能是一些橫幅文字。然后還有可能是一些各種各樣的圖片動圖靜圖,包括一些文本信息。比如說我一些某些場景關注的一些詞庫的信息,還有一些副文本。比如我的素材就是一篇文章,或者甚至是一個代碼段,或者是我代碼當中的canvas的一個結構體。那這些其實都是我們用于制作的一個素材。那除了這些素材之外,我們怎么才能把節目制作出來呢?
我們可能還需要一個模板庫。那這個模板庫是一個模板的概念,就是我們可以在這個模板庫利用設計師的素材,設計師可能會設計出一堆的模板,但是我們其實并不想說我們需要用AI的方式去對整個的模板化的制作去進行一個進階。而進階在哪里呢?就是我們可能并不是想說我原封不動地套用這些模板,而不做一點變化。
比方說我現在設計師設計了一個泡泡彈來彈去的這樣背景,需要跟我的前景圖片合成的場景。那這個泡泡設計的時候,設計師只會選擇一些配色和一些運動軌跡的變化。
但是我實際在真的去做合成的時候,如果我每一張圖片都用這個背景去合成,可能會使這個背景跟我的圖片不協調。
那我怎么才能去用AI的手段去做這樣一個改進呢?
我們可能會去分析這個圖片的色彩,并且去分析整個圖片的調性和這個模板的運動軌跡的變化。那我們通過這樣的分析的話,會把當前的素材它所依賴的特征跟這個模板的參數進行解析的分割。然后能夠把整個參數級的變化跟我素材的特征去進行結合。那這樣的話,我就可以把這個所謂的基礎的模板裂變成了很多個性化的模板。這個性化的模板實際上是針對每個不同的素材都可以有自己的個性化的模板的。那我通過這個性化的模板,來結合素材集,上邊的左邊是說我的完整的素材集,但是可能我的素材集是一個海量的。那我到底要用什么樣的素材來做我的這個視頻呢?這里肯定會有挑選的過程。
挑選其實是包括兩部分,一部分是搜索,一部分是截取我所想要視頻的一部分內容。搜索的過程實際上是AI能夠深度參與的過程。可能會根據我的場景去做不同AI的搜索上的分析。可能是基于內容、關鍵詞,甚至是基于知識圖譜的分析。然后搜索之后我到底是截取這個視頻中的哪一段,實際上是跟我的主題和視頻內容密切相關的。如果我是做人物相關的視頻,那我可能獲取的素材是跟人物相關的這樣的片段。如果我想要的動作類的,比如說像賽事類的,我做一個集錦。我可能需要關注的片段是跟運動畫面,或者是跟鏡頭相關的東西。
那我們通過兩個部分的結合,就是從海量的素材庫去搜索到我這一次制作需要的這個素材集,并且用AI的方式去把模板能夠裂變成個性化的模板之后我們在把這個模板和素材集進行結合。這個就是我們的原材料。然后最終我們通過結合去構建時間線。
因為時間線是最終合成的依據。那整個時間線通過合成和渲染就能夠渲染出視頻或者一些泛媒體的影響。這就是成片模板化制作的例子。它的核心實際上就是說我的每一個部分都是可以用AI的方式去取代的。這個AI的方式,它不僅僅只能用于去初步地篩選素材。它還可以深度的參與到整個的制作過程當中。
第三個就是剛才前面說到的,我們有時候并不是只是為了制作成片。而我的目標是制作一些素材。這些素材本身又是可以被反復使用。因為制作素材和制作成片有很大的不同。
就拿制作成片來說,我會用到非常多各種各樣的效果,來保證我成片在視覺上的沖擊力。但是我做素材的時候,我可能盡量的保證一個 clean 的結果。我可能并不希望加過多的效果的修飾。我的核心在于這個視頻當中的哪些素材、哪些片段是能被重復使用的。
并且,我可能會根據我重復使用的一些原則和基準來去做我的挑選策略。我的素材源還是兩類,大概分成兩類,直播流和視頻。然后經過視頻智能生產的一個預處理,可以看到這個關注點跟原來成片制作是完全不同的。
我原來成片制作可能會關注各種效果,各種編排,各種多軌的一個疊加。但是我在做素材的時候,我關注的是這個視頻本身鏡頭,這是一個重要的因素,我需要對鏡頭去進行非常嚴格的分析。這個鏡頭語言最核心的兩個要素,就是景別和拍攝方式。
景別分成遠景、全景、中景、近景和特寫。每一種類型的鏡頭它的用法也是不一樣的。我可能會通過AI的分析去識別出這個鏡頭的級別,并且把這個鏡頭的級別會對畫面進行一個標注。
這個標注不光是標注在時間軸上,還要標注在視頻畫面上。另外一個非常重要的維度就是拍攝方式。
因為我們在做不同類型視頻的時候,可能關注的拍攝方式不一樣。如果我們在做一個故事類節目的時候,我會非常關注拍攝方式,就是鏡頭移動順序不能錯亂。把人的關注點按照順序的方式去銜接起來,而不是整個畫面去滿世界的跳。所以我們需要去研究拍攝方式,就是用固定和運動的拍攝方式去分析鏡頭語言。然后能夠把不同片段的拍攝方式能夠提取出來。但是在有些場景,我們恰恰需要把這些拍攝方式去進行一個綜合。
比如我們在做一個非常炫酷的音樂或者跳舞節目的集錦的時候,我就要故意制造這種錯亂的拍攝視角,從而產生一個炫酷的效果。
所以我們需要根據場景結合來分析鏡頭語言,把這個鏡頭能夠識別好。然后根據不同的景別和拍攝方式把把標簽打好,這樣的話才能夠為后面再次的節目制作和視頻制作做準備。
同時,我們仍然需要一個基礎的庫。比方我們需要數據庫,需要鏡頭的標簽庫,還有鏡頭本身的視頻庫。以及因為人物創作是整個節目制作的非常關鍵的點。
所以我們還會構建一個人物庫。基于這些基礎庫的構建和生產預處理,以及鏡頭的分析。我們就能做素材智能時間線的一個處理。然后我們經過素材的分析之后,我們會拿到素材的級別結果,拿到拍攝方式的結果,拿到內容特征提取的分析的結果。拿到這個東西之后,我們可以開始構建時間線。
在時間線的構建當中,因為我們可能在在中間這個階段拿到的結果是非常零碎的。在這個零碎結果中,最終到底哪些畫面才是我們能夠復用的素材呢?那這個時候實際上是需要結合場景去定義一些詞庫,或者一些特征庫的。
基于這些特征庫,我們才能夠生成需要的素材時間線的結構。這個素材時間線的結構拿到之后就可以去做素材真正的拆分了。有可能我們從新聞聯播的一期完整節目,能夠拿到一些有價值的片段。這些片段在傳統行業被叫做所謂的通稿,或者是 clean 素材的概念。這個過程實際上就是我們整個智能制作相比于生產素材的一個不同。
總結一下視頻云做智能媒體生產的技術層次。在我們的技術層次的設計當中右邊最下面是最核心的云制作能力。這個云制作的能力,它實際上是一個硬通貨和核心能力。比如說像剪切拼接多軌疊加多軌混音,圖文混編多幀率,然后多碼率的自適應融合,還有字幕、還有包括動圖的能力,包括效果、渲染、濾鏡、轉場等等,這些都屬于云制作的部分。這些也是整個智能制作的最核心的部分。如果沒有這些東西的話,那你不管是AI也好,包裝也好,其實都是沒有根基的。
那在制作能力上面我們設計的是包裝能力,包裝能力實際上它看的點是規模化。就是我通過包裝,我可以把東西提煉出來,抽象出來,而不是每一次都從零開始制作。這個是我們包裝能力的第一個要點。
第二個點是說我包裝能力的話,是可以去用AI的方式多樣化的。會有一些模板,通過包裝,我可以把一個原始的素材裂變成多種多樣的效果的視頻。這個也是可以通過包裝能力來實現的。還有就是組件化,當我把包裝能力能夠做成工具或者做成SDK的話,這個實際上就是組件化的一個能力。這也是能夠我們能夠快速地批量化生成視頻的效果。這相當于制作專注在核心,包裝是專注在應用。
那左邊這部分可以看到AI的一個部分。AI在我們整個的體系當中,它是用于做智能化和規模化的抓手。就是它會深入地融合在云制作和云包裝的能力的每一個模塊當中。
最上面這一層,是我們整個技術體系的生態部分。我們要做多端的融合,并且要搞定最后一公里的這個問題。所以在過程中,我們會把這些能力有很好的出口去做生態。然后我們對智能化的演進路徑也有一些展望。
在這個過程當中,我們把這些能力有很好的一個出口做一個生態。然后我們對這個智能化的研究路徑也有一些展望。
最開始我們批量化做視頻,可能會用模板化的生產,或者用AI輔助制作和基于簡單規則的就是內容生成。
這些是前三點,是我們已經做到的。第四點是還我們還沒有做到的。是基于場景理解模板的推薦。現在的模板還是人去挑的。以及基于視頻畫面分析的 AI 的濾鏡,現在無論是模板還是濾鏡,其實都是由我們自己來指定的。
我們希望有一天能夠用 AI 來做到這些事情。我的一個終極設想,希望未來 AI 能夠真正獨立去做創作,去生成有故事的視頻。
以上我們在智能制作這個體系里對未來的一個看法。
我們認為未來在制作這個體系,它一定是兩個方面都并重的。
首先是我們會越來越專業。從我們對于視頻的需求來看到,最開始互聯網上做視頻是一個單軌制作,現在可能也是多軌、多種效果,多個素材,多種類型的一個制作。
整個的視頻制作的鏈路會越來越專業。但是在專業的同時,我們覺得整個視頻制作的參與者是越來越多了,這是一個普惠的過程,專業和普惠是一對看上去沖突,但又不矛盾的點。
通過我們的核心設計,以及打地基過程,讓整個的行業包括AI的能力進一步提升,使未來專業化制作成為可能。
普惠是我們通過各種各樣的工具,通過工具化的生產,能夠降低創意和使用的門檻,能夠讓每一個人進入到制作過程中去做自己想要的視頻。
這個是我們整體對這個未來的看法。那具體到點的話,我們認為,首先第一個當我們端跟云協同制作的時候,會有一個所見即所得,但是渲染效果不統一的問題。我們希望未來的話,端上的制作和云端的制作,它的效果是一致的。這是未來的一個趨勢。這里可能會用到云渲染的技術。現在的實時制作和后期制作相對是割裂的。我們希望未來這兩個部分是能夠完全融合的。
第三塊我們認為隨著屏幕的增大和 5G 的到來,超高清的制作已經已經在一些場景去嘗試,同時專業制作也是一個方向。
最后第四個一個普惠的過程,后面的進化過程可能是全民創作。視頻的制作技術已經不再是所謂的高端的技術,而是一個普惠全民的技術。能夠讓每一個人都能制作自己想要的視頻。最后,我和很多專業制作領域的同行聊,他們也是希望 AI 能夠真正的進化為能夠創作有故事的視頻這樣一個階段。
灣區最原汁原味的技術,全球最前沿的應用實踐
無需漂洋過海,我們在線上等您!
LiveVideoStackCon 2020?美國站
2020年12月11日-12月13日
點擊【閱讀原文】了解更多詳細信息
總結
以上是生活随笔為你收集整理的“云端一体”的智能媒体生产制作演讲之路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Netflix测试有线电视频道、字节11
- 下一篇: 实时音视频助力在线教育风口