云端智创 | 基于视频AI原理的音视频智能处理技术
本文內(nèi)容整理自「智能媒體生產(chǎn)」系列課程第二講:視頻AI與智能生產(chǎn)制作,由阿里云智能視頻云高級(jí)技術(shù)專家分享視頻AI原理,AI輔助媒體生產(chǎn),音視頻智能化能力和底層原理,以及如何利用阿里云現(xiàn)有資源使用音視頻AI能力。課程回放見文末。
?
01 算法演進(jìn):視頻AI原理
?
在媒體生產(chǎn)的全生命周期中,AI算法輔助提升內(nèi)容生產(chǎn)制作效率,為創(chuàng)作保駕護(hù)航。
?
智能生產(chǎn)全鏈路
?
智能生產(chǎn)全鏈路可分為五大部分。傳統(tǒng)的媒體生產(chǎn)包含采集、編輯、存儲(chǔ)、管理和分發(fā)五個(gè)流程,隨著人工智能技術(shù)的興起,五大流程涉及到越來越多的機(jī)器參與,其中最主要的便是AI技術(shù)的應(yīng)用。以下舉例說明:
l 采集
在攝像機(jī)拍攝時(shí)同步進(jìn)行綠幕摳圖,這在演播室或者影視制作場(chǎng)景中是比較常見的。
l 編輯
編輯過程運(yùn)用到很多技術(shù),比如橫轉(zhuǎn)豎、提取封面、疊加字幕等,同時(shí)這些字幕還可以通過語音識(shí)別的方式提取出來再疊加在畫面上。
l 存儲(chǔ)
視頻在采集和編輯之后,需要存儲(chǔ)下來進(jìn)行結(jié)構(gòu)化分析,像智能標(biāo)簽就是運(yùn)用在存儲(chǔ)場(chǎng)景,從視頻中提取出相應(yīng)的標(biāo)簽,進(jìn)行結(jié)構(gòu)化的存儲(chǔ),并把視頻庫中的視頻進(jìn)行結(jié)構(gòu)化關(guān)聯(lián)。
l 管理
存儲(chǔ)下來的視頻如何管理?如何通過關(guān)鍵詞檢索到對(duì)應(yīng)的視頻?在管理環(huán)節(jié),AI可以幫助進(jìn)行多模態(tài)的檢索,比如人物搜索等。
l 分發(fā)
在存儲(chǔ)和管理之后,視頻分發(fā)也運(yùn)用到AI技術(shù),比如音視頻DNA、溯源水印等版權(quán)保護(hù)應(yīng)用。如果通過直播流的方式對(duì)廣大用戶進(jìn)行直播,那么分發(fā)環(huán)節(jié)還會(huì)涉及到直播審核,以免出現(xiàn)直播故障。
?
?
基于智能生產(chǎn)全鏈路,媒體AI全景圖應(yīng)運(yùn)而生,共分為四個(gè)層次:
最上面的層次表達(dá)媒體生產(chǎn)的應(yīng)用場(chǎng)景,包含智能媒資管理、內(nèi)容智能生產(chǎn)以及視頻版權(quán)保護(hù)。
往下是產(chǎn)品能力,即AI組合達(dá)成的能力,比如視頻分類、智能封面、智能摳圖等。
再往下是AI原子能力,比如語音識(shí)別、自然語言處理這些底層的AI能力。
最下是支撐AI能力的基礎(chǔ)底座,如編解碼和GPU加速等。以上組合起來,生成一張AI運(yùn)用在智能生產(chǎn)中的全景圖。
?
?
視頻AI原理
?
視頻AI的底層原理究竟是什么?
人工智能發(fā)源于機(jī)器學(xué)習(xí),而機(jī)器學(xué)習(xí)最早只是一種統(tǒng)計(jì)手段,像決策樹、支持向量機(jī)、隨機(jī)森林等各種數(shù)學(xué)方法。
隨著時(shí)代發(fā)展,科學(xué)家提出一種人工神經(jīng)網(wǎng)絡(luò)的計(jì)算方法,或者說算法,后來發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)可以變得更大、層次變得更深,經(jīng)過進(jìn)一步探索發(fā)展,在二十多年前提出了深度學(xué)習(xí)的觀點(diǎn)和概念。
所謂深度學(xué)習(xí),就是在原先的人工神經(jīng)網(wǎng)絡(luò)上,把中間的層次(我們稱之為隱含層)擴(kuò)展成兩個(gè)層次、三個(gè)層次,甚至發(fā)展到現(xiàn)在的幾十個(gè)層次,即可得到更多的輸入層和輸出層節(jié)點(diǎn)。
當(dāng)神經(jīng)網(wǎng)絡(luò)變得更大、更深的時(shí)候,機(jī)器學(xué)習(xí)就演化成深度學(xué)習(xí),也就是我們現(xiàn)在俗稱的AI。
隨之而來產(chǎn)生一個(gè)問題:如何將AI運(yùn)用到視頻和圖像中?
假如有一個(gè)1080P的視頻,視頻大小為1920?1080,此時(shí)一張圖像上就存在百萬個(gè)像素。如果把百萬個(gè)像素點(diǎn)都放入神經(jīng)網(wǎng)絡(luò)中,會(huì)產(chǎn)生巨大的計(jì)算量,遠(yuǎn)遠(yuǎn)超出常規(guī)計(jì)算機(jī)所能達(dá)到的上限。
因此,在把圖像放入神經(jīng)網(wǎng)絡(luò)前需要進(jìn)行處理,研究人員提出了卷積神經(jīng)網(wǎng)絡(luò),而這也是現(xiàn)在所有圖像和視頻AI的基礎(chǔ)。
?
?
在卷積神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)模型中,圖像進(jìn)入神經(jīng)網(wǎng)絡(luò)之前需要進(jìn)行兩步操作:
第一步是卷積層。所謂卷積就是拿一個(gè)卷積核(可以簡單理解為一個(gè)矩陣)和原始圖像的每一個(gè)卷積核大小的矩陣進(jìn)行矩陣層的操作,最后得到一個(gè)特征圖像。由于有多個(gè)卷積核,所以一張圖片可以提取出多個(gè)特征圖像。
特征圖像直接放入神經(jīng)網(wǎng)絡(luò)還是太大,因此,需要進(jìn)行第二步池化層操作,池化層的作用就是下采樣,可采取多種方式,比如把方格中的最大值、平均值或者加權(quán)平均值作為最終輸出值,形成下采樣數(shù)據(jù)。
在上述例子中,一張圖像的大小降低為原先的四分之一,輸入到神經(jīng)網(wǎng)絡(luò)之后,極大降低了原始數(shù)據(jù)量,即可進(jìn)行圖像神經(jīng)網(wǎng)絡(luò)處理。由此可見,用通俗的話來講,視頻或圖像的AI模型必須是由大數(shù)據(jù)喂出來的。
大數(shù)據(jù)天然地長在云上,云和AI天然的結(jié)合,可以使AI在云上得到較好的發(fā)展與運(yùn)用。
了解視頻AI原理之后,如何反過來評(píng)價(jià)AI的效果?
以典型的分類問題舉例,假如有100個(gè)視頻,需要找出其中出現(xiàn)過人的視頻,那么有兩個(gè)指標(biāo)可以評(píng)價(jià)AI模型的好壞:一個(gè)是精度,另一個(gè)是召回率。
所謂的精度是指,假設(shè)AI算法最終找出50個(gè)視頻,但是檢查之后發(fā)現(xiàn),其中只有40個(gè)是真正有人的,那么精度計(jì)算為40?50=0.8。
召回率是指,假設(shè)這100個(gè)視頻中真正有人的一共有80個(gè),而AI找出了其中40個(gè),那么召回率計(jì)算為0.5。
可以發(fā)現(xiàn),精度和召回率是一對(duì)矛盾。假如想提高精度,只要找出來的視頻少一點(diǎn),就可以保證每個(gè)找出來的視頻都是對(duì)的,即精度上升,但此時(shí)召回率一定會(huì)下降。
現(xiàn)階段的AI并不完美,也就是說,目前AI還只能輔助視頻生產(chǎn),生產(chǎn)視頻的主體還是人。
?
AI輔助生產(chǎn)
?
AI輔助生產(chǎn)可以由以下兩個(gè)示例進(jìn)行說明。
示例一:通過圖片搜索相關(guān)圖片或視頻。Demo顯示,輸入一張周星馳的圖片后,機(jī)器雖然不認(rèn)識(shí)這是誰,但是能夠從圖片中提取此人的外貌特征,然后在視頻庫里做相應(yīng)搜索,找出一堆包含周星馳的視頻。
示例二:智能橫轉(zhuǎn)豎。傳統(tǒng)電影和電視劇均為橫屏播放,隨著移動(dòng)互聯(lián)網(wǎng)興起,這些電影和電視劇需要在手機(jī)端進(jìn)行投放,由此誕生了智能橫轉(zhuǎn)豎這樣的AI算法,將大量的橫屏視頻轉(zhuǎn)換成豎屏視頻,幫助橫屏視頻在手機(jī)端分發(fā)。
電視劇橫轉(zhuǎn)豎效果
新聞橫轉(zhuǎn)豎效果
?
02 智能進(jìn)階:視頻內(nèi)容理解
?
智能標(biāo)簽
?
智能標(biāo)簽基于AI對(duì)于視頻內(nèi)容的理解,自動(dòng)提取視頻中的標(biāo)簽、關(guān)鍵詞等信息,分析詳情會(huì)展示為四部分:
第一部分是視頻標(biāo)簽,獲取視頻的類目,視頻出現(xiàn)過哪些人物,人物出現(xiàn)的時(shí)間點(diǎn)以及在視頻中的位置,人物的相似度等。
第二部分是文本標(biāo)簽,會(huì)提煉出一些關(guān)鍵詞,包括視頻文本中出現(xiàn)過的組織機(jī)構(gòu),比如央視等。
后面兩部分為文字識(shí)別和語音識(shí)別,分別通過圖片OCR技術(shù)和語音云識(shí)別技術(shù)實(shí)現(xiàn)。
具體示例可在AI體驗(yàn)館中進(jìn)行體驗(yàn),同時(shí),也提供API接入文檔進(jìn)行參考。
體驗(yàn)中心:https://retina.aliyun.com/#/Label
API接入文檔:https://help.aliyun.com/document_detail/163485.html
AI是如何從視頻中提取出信息的呢?從視頻標(biāo)簽的流程圖中可以看到,輸入一個(gè)視頻,分別進(jìn)行兩部分操作:
一部分是對(duì)視頻做抽幀處理,抽幀得到的圖像通過人像識(shí)別、場(chǎng)景識(shí)別、物體識(shí)別、地標(biāo)識(shí)別、OCR等圖像AI識(shí)別模型,提煉出視頻標(biāo)簽。
另一部分是把視頻中的音頻提取出來,然后通過ASR得到文本結(jié)果,最后再經(jīng)過NLP(自然語言處理),提取出文本標(biāo)簽。
?
?
智能審核
?
視頻審核的技術(shù)原理與視頻標(biāo)簽相同,唯一不同的是,視頻標(biāo)簽可以理解為一個(gè)正向的視頻內(nèi)容理解,而視頻審核是負(fù)向的,審核需要識(shí)別出一些不合規(guī)的、有問題的內(nèi)容,比如鑒黃、暴恐涉政、違規(guī)、二維碼、不良場(chǎng)景等信息。
?
視頻檢索
?
視頻檢索的核心技術(shù)點(diǎn)是利用標(biāo)簽結(jié)果進(jìn)行視頻的分析和查詢。
視頻檢索架構(gòu)圖顯示,媒資系統(tǒng)中的視頻通過媒資特征入庫模塊,導(dǎo)入到智能標(biāo)簽分析中,并得到一系列的標(biāo)簽,包括視頻標(biāo)簽、文本標(biāo)簽,原始的ASR、OCR結(jié)果等,將這些結(jié)果連同視頻的元數(shù)據(jù)信息比如標(biāo)題、描述等,利用ElasticSearch開源服務(wù)進(jìn)行文本信息的倒排索引和查詢。
視頻檢索過程中會(huì)涉及到精排模塊,這需要由業(yè)務(wù)層來實(shí)現(xiàn)。如果只是從ES中把符合檢索條件的結(jié)果提取出來,不一定能滿足業(yè)務(wù)層需求,比方說業(yè)務(wù)層面對(duì)政治新聞場(chǎng)景時(shí),會(huì)要求把某些人物的搜索結(jié)果更靠前排序,而這就是精排模塊所需要做的工作。
檢索系統(tǒng)一般都會(huì)根據(jù)業(yè)務(wù)層排序,接入業(yè)務(wù)接口模塊,由此一個(gè)基本的檢索系統(tǒng)搭建完成。但是,現(xiàn)在的檢索系統(tǒng)只能按照文本檢索視頻。如何通過一張圖片,檢索到相似的圖片或視頻呢?
這涉及到視頻DNA檢索技術(shù)。所謂的視頻DNA,就是把視頻里面的關(guān)鍵幀或者某一鏡頭提煉出關(guān)鍵信息,我們把它稱之為DNA,并把這些信息放入向量數(shù)據(jù)庫中進(jìn)行檢索,更多內(nèi)容可通過體驗(yàn)中心和接入文檔進(jìn)行拓展了解。
體驗(yàn)中心:https://retina.aliyun.com/#/DNA
API接入文檔:https://help.aliyun.com/document_detail/93553.html
?
?
03 能力升級(jí):音視頻智能處理
?
基于視頻內(nèi)容理解,如何對(duì)視頻進(jìn)行智能處理?
?
綠幕摳圖
?
綠幕摳圖是在視頻拍攝或者采集時(shí),把背景替換成電腦制作的畫面。在演播室場(chǎng)景中,實(shí)際拍攝時(shí)根據(jù)需求,在主持人的背后放置綠幕背景或者藍(lán)幕背景。
影視制作場(chǎng)景同樣運(yùn)用到綠幕摳圖,比如科幻片中無法實(shí)景拍攝的部分,會(huì)在后期進(jìn)行背景疊加或其他處理工作,通過在人物背后放置綠幕的方式,把人物主體提取出來。
綠幕摳圖要求輸入的是藍(lán)幕或者綠幕視頻,分辨率不超過4K,同時(shí)輸入一張背景圖片,即可輸出替換背景后的視頻。以下為示例說明:一個(gè)人從綠幕前走過,替換背景后,變成此人在背景前走路,整體效果非常自然。
?
視頻鏈接:https://v.youku.com/v_show/id_XNTk0MDc4Mjc3Mg==.html
?
視頻鏈接: https://v.youku.com/v_show/id_XNTk0MDc4Mjc5Ng==.html
?
如何評(píng)價(jià)綠幕摳圖的質(zhì)量?首先要處理好邊緣溢色,比如在頭發(fā)邊緣,由于原始的圖像背景是綠幕,頭發(fā)縫邊緣必然會(huì)染上一些綠色,技術(shù)上需要把這些邊緣溢色擦除掉。
此外,如何真實(shí)地呈現(xiàn)透明度,并疊加背后的內(nèi)容,還有運(yùn)動(dòng)模糊,地面陰影等,均是綠幕摳圖質(zhì)量好壞的評(píng)價(jià)點(diǎn)。
?
橫轉(zhuǎn)豎
?
橫轉(zhuǎn)豎是在移動(dòng)互聯(lián)網(wǎng)上分發(fā)視頻的必備處理手段。
傳統(tǒng)人工制作橫轉(zhuǎn)豎視頻的難點(diǎn)在于:一,需要專業(yè)的剪輯軟件和制作人員,成本高,速度慢;二,在目標(biāo)移動(dòng)比較快的場(chǎng)景中,需要逐幀剪裁,工作量巨大;三,剪裁目標(biāo)區(qū)域后,前后幀難以對(duì)齊。因此,橫轉(zhuǎn)豎視頻更適合由機(jī)器制作實(shí)現(xiàn)。
智能橫轉(zhuǎn)豎的算法流程是:首先對(duì)視頻進(jìn)行鏡頭分割,所謂的鏡頭分割就是在視頻制作中,按照不同拍攝機(jī)位的轉(zhuǎn)變,識(shí)別鏡頭的切換,并把不同鏡頭分割開來。
?
視頻鏈接:https://v.youku.com/v_show/id_XNTk0MDg4MjA0NA==.html
?
其次是主體選擇,在主體選擇時(shí),一般選擇畫面中最醒目的人作為目標(biāo),在上述舞蹈場(chǎng)景中,主體就是這個(gè)正在跳舞的人。
然后是鏡頭追蹤,每幀圖像做好初期選擇之后,下一幀都要跟隨目標(biāo),即框定的圖像跟隨這個(gè)人進(jìn)行移動(dòng)。
最后是路徑平滑,鏡頭追蹤完成之后,最終生成的豎屏視頻必須是平滑的,不能出現(xiàn)翹邊等不良效果。更多內(nèi)容可參見官網(wǎng):
體驗(yàn)中心:https://retina.aliyun.com/#/H2V
API接入文檔:https://help.aliyun.com/document_detail/169896.html
?
其他視頻智能處理能力
?
目前,阿里云視頻云提供的視頻智能處理能力,可分為以下四類:
ROI提取,即感興趣區(qū)域提取,包括綠幕摳圖和橫轉(zhuǎn)豎;
智能擦除,比如去圖標(biāo)、去字幕;
關(guān)鍵信息提煉,比如智能封面,即從視頻中提取出最能表現(xiàn)視頻的一張圖片;視頻摘要,提取出視頻中最能表現(xiàn)視頻的簡短視頻;
結(jié)構(gòu)化分析,比如字幕提取,把嵌入在圖像中的字幕自動(dòng)提取出來;PPT拆條,可以將一個(gè)課程視頻自動(dòng)拆成段落。
?
?
講完視頻智能處理能力,接下來介紹兩項(xiàng)音頻智能處理能力:副歌識(shí)別和節(jié)奏檢測(cè)。
?
副歌識(shí)別
?
副歌是指歌曲中的高潮片段。副歌識(shí)別有何應(yīng)用場(chǎng)景?比如,很多音樂APP的試聽功能,會(huì)直接播放歌曲中的高潮片段,人為進(jìn)行提取相當(dāng)麻煩,而副歌識(shí)別就能很好地完成任務(wù)。
副歌識(shí)別的算法流程為:輸入歌曲之后,首先進(jìn)行音樂段落檢測(cè),然后提取副歌段落,并進(jìn)行精調(diào)使之更貼合,最后再生成副歌片段。
?
?
副歌識(shí)別的示例顯示,通過調(diào)用之后,算法會(huì)返回兩個(gè)結(jié)果值,即副歌的開始時(shí)間點(diǎn)和結(jié)束時(shí)間點(diǎn)。
?
?
大家可以對(duì)返回的結(jié)果和音頻進(jìn)行對(duì)照,從72秒副歌開始,到102秒副歌結(jié)束,副歌識(shí)別結(jié)果還是非常準(zhǔn)確的。
?
節(jié)奏檢測(cè)
?
節(jié)奏檢測(cè)即識(shí)別音樂中的節(jié)奏點(diǎn),其主要應(yīng)用場(chǎng)景為視頻制作和音樂推薦,比如,通過識(shí)別出音樂節(jié)奏點(diǎn),進(jìn)行鬼畜視頻的制作;通過識(shí)別音樂的節(jié)拍類型,是四三拍還是四四拍,幫助進(jìn)行音樂分類等。
繼續(xù)以上述音頻示例,節(jié)奏檢測(cè)算法輸出兩個(gè)結(jié)果:第一個(gè)是節(jié)拍時(shí)間點(diǎn),如0.46秒、0.96秒均為節(jié)拍時(shí)間點(diǎn);第二個(gè)是downbeat時(shí)間點(diǎn),在樂理中解釋為重拍,其中0.46秒為第一拍,2.46秒為第五拍,也就是說每四拍為一個(gè)小節(jié),每小節(jié)的第一拍為重拍,由此檢測(cè)出該音樂的節(jié)奏。
?
?
其他音頻智能處理能力
?
此外,視頻云還提供其他音頻智能處理能力,包括混音,ASR語音識(shí)別和TTS語音合成。混音即把兩個(gè)音樂片段進(jìn)行疊加,其中涉及到音量增益和自動(dòng)控制算法。
這些能力進(jìn)行組合,還可以實(shí)現(xiàn)更多玩法,比如歌曲串燒,首先通過副歌識(shí)別,把幾首歌曲的副歌部分提取出來,然后進(jìn)行節(jié)奏檢測(cè),把合適的節(jié)拍點(diǎn)合在一起,最終組合成一首完整的歌曲串燒。
?
04 開箱即用:阿里云媒資服務(wù)
?
基于視頻AI原理以及效果,阿里云利用現(xiàn)有資源,提供更方便、更高效的音視頻AI使用能力。
?
MPS服務(wù)
?
MPS是媒體處理的英文簡稱。阿里云提供針對(duì)多媒體的數(shù)據(jù)處理服務(wù),將媒體處理過程抽象成兩種模式:一種是輸入音視頻等多媒體文件,經(jīng)過智能化媒體處理,生成一個(gè)新的媒體文件,比如之前提到的智能橫轉(zhuǎn)豎。
另一種模式是輸入一個(gè)媒體文件,輸出經(jīng)過媒體處理分析后的一系列結(jié)構(gòu)化數(shù)據(jù),比如智能標(biāo)簽或智能審核。
MPS支持多項(xiàng)音視頻智能處理能力,此外,MPS的媒體文件類型,既可以輸入OSS文件,也支持輸入網(wǎng)絡(luò)URL地址。
?
?
MPS接口調(diào)用的流程為:
第一步,開通MPS產(chǎn)品,在開通的過程中,控制臺(tái)會(huì)引導(dǎo)進(jìn)行增加權(quán)限等相關(guān)操作。
開通MPS產(chǎn)品:https://www.aliyun.com/product/mts
第二步,調(diào)用MPS的Open API接口,獲得Access Key,包括AK的ID和密鑰。所有阿里云的Open API都要通過AK和SK訪問。
使用RAM服務(wù)獲取AccessKey:https://ram.console.aliyun.com/manage/ak
第三步,認(rèn)真閱讀MPS提供的API文檔:https://help.aliyun.com/document_detail/29210.html
第四步,針對(duì)開發(fā)需要,選用不同編程語言,并安裝依賴模塊:https://help.aliyun.com/document_detail/188024.html
第五步,編寫代碼。
阿里云MPS服務(wù)提供的智能化能力可以分為四個(gè)維度:
一是視頻內(nèi)容理解,包含智能標(biāo)簽,智能審核,媒體DNA,媒體DNA是視頻檢索中的重要組成部分,還有智能封面、視頻摘要等。
二是視頻智能處理,像橫轉(zhuǎn)豎、去圖標(biāo)、去字幕、字幕提取等,從電視劇或電影中抽取出字幕,并輸出TXT或者SRT格式,此外,也包括綠幕摳圖和PPT拆條等。
三是音頻智能處理,包含副歌檢測(cè)、混音處理、節(jié)奏檢測(cè)和音質(zhì)檢測(cè)等。
四是圖片智能處理,包含橫轉(zhuǎn)豎、去圖標(biāo)和人像風(fēng)格化。人像風(fēng)格化可以把一張人像圖片風(fēng)格化成不同的形式,比如把人像進(jìn)行卡通化,或者進(jìn)行3D處理。
?
?
IMS服務(wù)
?
IMS服務(wù)是阿里云近年來新上的服務(wù),全稱是智能媒體服務(wù),和MPS服務(wù)的區(qū)別在于:
IMS服務(wù)圍繞直播和點(diǎn)播場(chǎng)景,是針對(duì)媒體處理的全流程服務(wù),可認(rèn)為是MPS服務(wù)的重大產(chǎn)品迭代和升級(jí)。
第一,IMS不僅針對(duì)于單個(gè)媒體處理過程,而是對(duì)于媒體服務(wù)全流程、全生產(chǎn)周期的管理和制作;
第二,IMS的集成度更高,不光可以進(jìn)行單個(gè)原子能力的音視頻處理,還可以進(jìn)行媒資管理、工作流觸發(fā)等,讓開發(fā)者更方便地使用音視頻智能化能力;
第三,IMS更智能,后續(xù)所有智能化能力升級(jí)后都會(huì)集中體現(xiàn)在IMS服務(wù)中。
?
?
IMS控制臺(tái)融合了媒資管理,媒資庫中的音頻視頻文件,包括圖片、輔助的媒資,都可以通過IMS服務(wù)進(jìn)行展示和管理。
利用多模檢索的智能化能力,IMS可以實(shí)現(xiàn)多媒體文件的智能化檢索。傳統(tǒng)的音視頻文件檢索,只能針對(duì)標(biāo)題或者簡介進(jìn)行,而IMS支持對(duì)上傳的音視頻文件做AI自動(dòng)分類,并根據(jù)分類結(jié)果進(jìn)行搜索,同時(shí),也支持對(duì)視頻中的文字進(jìn)行自動(dòng)識(shí)別檢索。
比如,新聞聯(lián)播的畫面中出現(xiàn)了“康輝”兩個(gè)字樣,雖然視頻文件的標(biāo)題和簡介里都沒有出現(xiàn)過“康輝”,但在搜索“康輝”時(shí),AI還是可以搜索識(shí)別出此視頻文件,這就是多模檢索的能力。
?
?
Retina多媒體AI體驗(yàn)中心
?
上述MPS和IMS服務(wù)的智能化能力,都需要通過Open API調(diào)用或者控制臺(tái)開通使用,而Retina體驗(yàn)中心可以讓大家更方便快捷地進(jìn)行體驗(yàn),只需上傳視頻或圖片,就可以直觀地得到經(jīng)過智能化處理后的結(jié)果。
例如,在Retina平臺(tái),你可以體驗(yàn)人像卡通化的效果,只需上傳一張人像圖片,經(jīng)過自動(dòng)處理,就能獲得童話風(fēng)格的卡通人像圖片,更多體驗(yàn)就在:http://retina.aliyun.com/
?
隨著視頻與AI技術(shù)的發(fā)展和演進(jìn),AI在媒體生產(chǎn)領(lǐng)域中發(fā)揮著越來越重要的作用,以更快的速度、更高的效率完成之前難以實(shí)現(xiàn)的事情。
未來,AI將從輔助媒體生產(chǎn),逐漸轉(zhuǎn)變?yōu)橹苯由a(chǎn)有意義、有價(jià)值、有情感的視頻,進(jìn)一步加速媒體生產(chǎn)制作全自動(dòng)處理進(jìn)程。
更多完整內(nèi)容詳見課程回放 ??
?
視頻鏈接:https://v.youku.com/v_show/id_XNTk0MjQ4Mjk5Mg==.html
總結(jié)
以上是生活随笔為你收集整理的云端智创 | 基于视频AI原理的音视频智能处理技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: taro小程序 函数组件实现分享功能
- 下一篇: 用AI赋能客服,灵声科技获数千万元A轮融