當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

云端智创 | 基于视频AI原理的音视频智能处理技术

發(fā)布時間：2024/1/1 ChatGpt 48 豆豆

生活随笔收集整理的這篇文章主要介紹了云端智创 | 基于视频AI原理的音视频智能处理技术小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文內(nèi)容整理自「智能媒體生產(chǎn)」系列課程第二講：視頻AI與智能生產(chǎn)制作，由阿里云智能視頻云高級技術(shù)專家分享視頻AI原理，AI輔助媒體生產(chǎn)，音視頻智能化能力和底層原理，以及如何利用阿里云現(xiàn)有資源使用音視頻AI能力。課程回放見文末。
?

01 算法演進：視頻AI原理

?
在媒體生產(chǎn)的全生命周期中，AI算法輔助提升內(nèi)容生產(chǎn)制作效率，為創(chuàng)作保駕護航。
?

智能生產(chǎn)全鏈路

?
智能生產(chǎn)全鏈路可分為五大部分。傳統(tǒng)的媒體生產(chǎn)包含采集、編輯、存儲、管理和分發(fā)五個流程，隨著人工智能技術(shù)的興起，五大流程涉及到越來越多的機器參與，其中最主要的便是AI技術(shù)的應(yīng)用。以下舉例說明：

l 采集

在攝像機拍攝時同步進行綠幕摳圖，這在演播室或者影視制作場景中是比較常見的。

l 編輯

編輯過程運用到很多技術(shù)，比如橫轉(zhuǎn)豎、提取封面、疊加字幕等，同時這些字幕還可以通過語音識別的方式提取出來再疊加在畫面上。

l 存儲

視頻在采集和編輯之后，需要存儲下來進行結(jié)構(gòu)化分析，像智能標簽就是運用在存儲場景，從視頻中提取出相應(yīng)的標簽，進行結(jié)構(gòu)化的存儲，并把視頻庫中的視頻進行結(jié)構(gòu)化關(guān)聯(lián)。

l 管理

存儲下來的視頻如何管理？如何通過關(guān)鍵詞檢索到對應(yīng)的視頻？在管理環(huán)節(jié)，AI可以幫助進行多模態(tài)的檢索，比如人物搜索等。

l 分發(fā)

在存儲和管理之后，視頻分發(fā)也運用到AI技術(shù)，比如音視頻DNA、溯源水印等版權(quán)保護應(yīng)用。如果通過直播流的方式對廣大用戶進行直播，那么分發(fā)環(huán)節(jié)還會涉及到直播審核，以免出現(xiàn)直播故障。
?

?
基于智能生產(chǎn)全鏈路，媒體AI全景圖應(yīng)運而生，共分為四個層次：

最上面的層次表達媒體生產(chǎn)的應(yīng)用場景，包含智能媒資管理、內(nèi)容智能生產(chǎn)以及視頻版權(quán)保護。

往下是產(chǎn)品能力，即AI組合達成的能力，比如視頻分類、智能封面、智能摳圖等。

再往下是AI原子能力，比如語音識別、自然語言處理這些底層的AI能力。

最下是支撐AI能力的基礎(chǔ)底座，如編解碼和GPU加速等。以上組合起來，生成一張AI運用在智能生產(chǎn)中的全景圖。
?

視頻AI原理

?
視頻AI的底層原理究竟是什么？

人工智能發(fā)源于機器學(xué)習(xí)，而機器學(xué)習(xí)最早只是一種統(tǒng)計手段，像決策樹、支持向量機、隨機森林等各種數(shù)學(xué)方法。

隨著時代發(fā)展，科學(xué)家提出一種人工神經(jīng)網(wǎng)絡(luò)的計算方法，或者說算法，后來發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)可以變得更大、層次變得更深，經(jīng)過進一步探索發(fā)展，在二十多年前提出了深度學(xué)習(xí)的觀點和概念。

所謂深度學(xué)習(xí)，就是在原先的人工神經(jīng)網(wǎng)絡(luò)上，把中間的層次（我們稱之為隱含層）擴展成兩個層次、三個層次，甚至發(fā)展到現(xiàn)在的幾十個層次，即可得到更多的輸入層和輸出層節(jié)點。

當神經(jīng)網(wǎng)絡(luò)變得更大、更深的時候，機器學(xué)習(xí)就演化成深度學(xué)習(xí)，也就是我們現(xiàn)在俗稱的AI。

隨之而來產(chǎn)生一個問題：如何將AI運用到視頻和圖像中？

假如有一個1080P的視頻，視頻大小為1920?1080，此時一張圖像上就存在百萬個像素。如果把百萬個像素點都放入神經(jīng)網(wǎng)絡(luò)中，會產(chǎn)生巨大的計算量，遠遠超出常規(guī)計算機所能達到的上限。

因此，在把圖像放入神經(jīng)網(wǎng)絡(luò)前需要進行處理，研究人員提出了卷積神經(jīng)網(wǎng)絡(luò)，而這也是現(xiàn)在所有圖像和視頻AI的基礎(chǔ)。

?

?
在卷積神經(jīng)網(wǎng)絡(luò)的標準模型中，圖像進入神經(jīng)網(wǎng)絡(luò)之前需要進行兩步操作：

第一步是卷積層。所謂卷積就是拿一個卷積核（可以簡單理解為一個矩陣）和原始圖像的每一個卷積核大小的矩陣進行矩陣層的操作，最后得到一個特征圖像。由于有多個卷積核，所以一張圖片可以提取出多個特征圖像。

特征圖像直接放入神經(jīng)網(wǎng)絡(luò)還是太大，因此，需要進行第二步池化層操作，池化層的作用就是下采樣，可采取多種方式，比如把方格中的最大值、平均值或者加權(quán)平均值作為最終輸出值，形成下采樣數(shù)據(jù)。

在上述例子中，一張圖像的大小降低為原先的四分之一，輸入到神經(jīng)網(wǎng)絡(luò)之后，極大降低了原始數(shù)據(jù)量，即可進行圖像神經(jīng)網(wǎng)絡(luò)處理。由此可見，用通俗的話來講，視頻或圖像的AI模型必須是由大數(shù)據(jù)喂出來的。

大數(shù)據(jù)天然地長在云上，云和AI天然的結(jié)合，可以使AI在云上得到較好的發(fā)展與運用。

了解視頻AI原理之后，如何反過來評價AI的效果？

以典型的分類問題舉例，假如有100個視頻，需要找出其中出現(xiàn)過人的視頻，那么有兩個指標可以評價AI模型的好壞：一個是精度，另一個是召回率。

所謂的精度是指，假設(shè)AI算法最終找出50個視頻，但是檢查之后發(fā)現(xiàn)，其中只有40個是真正有人的，那么精度計算為40?50=0.8。

召回率是指，假設(shè)這100個視頻中真正有人的一共有80個，而AI找出了其中40個，那么召回率計算為0.5。

可以發(fā)現(xiàn)，精度和召回率是一對矛盾。假如想提高精度，只要找出來的視頻少一點，就可以保證每個找出來的視頻都是對的，即精度上升，但此時召回率一定會下降。

現(xiàn)階段的AI并不完美，也就是說，目前AI還只能輔助視頻生產(chǎn)，生產(chǎn)視頻的主體還是人。
?

AI輔助生產(chǎn)

?
AI輔助生產(chǎn)可以由以下兩個示例進行說明。

示例一：通過圖片搜索相關(guān)圖片或視頻。Demo顯示，輸入一張周星馳的圖片后，機器雖然不認識這是誰，但是能夠從圖片中提取此人的外貌特征，然后在視頻庫里做相應(yīng)搜索，找出一堆包含周星馳的視頻。

示例二：智能橫轉(zhuǎn)豎。傳統(tǒng)電影和電視劇均為橫屏播放，隨著移動互聯(lián)網(wǎng)興起，這些電影和電視劇需要在手機端進行投放，由此誕生了智能橫轉(zhuǎn)豎這樣的AI算法，將大量的橫屏視頻轉(zhuǎn)換成豎屏視頻，幫助橫屏視頻在手機端分發(fā)。

電視劇橫轉(zhuǎn)豎效果

新聞橫轉(zhuǎn)豎效果
?

02 智能進階：視頻內(nèi)容理解

智能標簽

?
智能標簽基于AI對于視頻內(nèi)容的理解，自動提取視頻中的標簽、關(guān)鍵詞等信息，分析詳情會展示為四部分：

第一部分是視頻標簽，獲取視頻的類目，視頻出現(xiàn)過哪些人物，人物出現(xiàn)的時間點以及在視頻中的位置，人物的相似度等。

第二部分是文本標簽，會提煉出一些關(guān)鍵詞，包括視頻文本中出現(xiàn)過的組織機構(gòu)，比如央視等。

后面兩部分為文字識別和語音識別，分別通過圖片OCR技術(shù)和語音云識別技術(shù)實現(xiàn)。

具體示例可在AI體驗館中進行體驗，同時，也提供API接入文檔進行參考。

體驗中心：https://retina.aliyun.com/#/Label

API接入文檔：https://help.aliyun.com/document_detail/163485.html

AI是如何從視頻中提取出信息的呢？從視頻標簽的流程圖中可以看到，輸入一個視頻，分別進行兩部分操作：

一部分是對視頻做抽幀處理，抽幀得到的圖像通過人像識別、場景識別、物體識別、地標識別、OCR等圖像AI識別模型，提煉出視頻標簽。

另一部分是把視頻中的音頻提取出來，然后通過ASR得到文本結(jié)果，最后再經(jīng)過NLP（自然語言處理），提取出文本標簽。
?

智能審核

?
視頻審核的技術(shù)原理與視頻標簽相同，唯一不同的是，視頻標簽可以理解為一個正向的視頻內(nèi)容理解，而視頻審核是負向的，審核需要識別出一些不合規(guī)的、有問題的內(nèi)容，比如鑒黃、暴恐涉政、違規(guī)、二維碼、不良場景等信息。

視頻檢索

?
視頻檢索的核心技術(shù)點是利用標簽結(jié)果進行視頻的分析和查詢。

視頻檢索架構(gòu)圖顯示，媒資系統(tǒng)中的視頻通過媒資特征入庫模塊，導(dǎo)入到智能標簽分析中，并得到一系列的標簽，包括視頻標簽、文本標簽，原始的ASR、OCR結(jié)果等，將這些結(jié)果連同視頻的元數(shù)據(jù)信息比如標題、描述等，利用ElasticSearch開源服務(wù)進行文本信息的倒排索引和查詢。

視頻檢索過程中會涉及到精排模塊，這需要由業(yè)務(wù)層來實現(xiàn)。如果只是從ES中把符合檢索條件的結(jié)果提取出來，不一定能滿足業(yè)務(wù)層需求，比方說業(yè)務(wù)層面對政治新聞場景時，會要求把某些人物的搜索結(jié)果更靠前排序，而這就是精排模塊所需要做的工作。

檢索系統(tǒng)一般都會根據(jù)業(yè)務(wù)層排序，接入業(yè)務(wù)接口模塊，由此一個基本的檢索系統(tǒng)搭建完成。但是，現(xiàn)在的檢索系統(tǒng)只能按照文本檢索視頻。如何通過一張圖片，檢索到相似的圖片或視頻呢？

這涉及到視頻DNA檢索技術(shù)。所謂的視頻DNA，就是把視頻里面的關(guān)鍵幀或者某一鏡頭提煉出關(guān)鍵信息，我們把它稱之為DNA，并把這些信息放入向量數(shù)據(jù)庫中進行檢索，更多內(nèi)容可通過體驗中心和接入文檔進行拓展了解。

體驗中心：https://retina.aliyun.com/#/DNA

API接入文檔：https://help.aliyun.com/document_detail/93553.html

?

?

03 能力升級：音視頻智能處理

?
基于視頻內(nèi)容理解，如何對視頻進行智能處理？
?

綠幕摳圖

?
綠幕摳圖是在視頻拍攝或者采集時，把背景替換成電腦制作的畫面。在演播室場景中，實際拍攝時根據(jù)需求，在主持人的背后放置綠幕背景或者藍幕背景。

影視制作場景同樣運用到綠幕摳圖，比如科幻片中無法實景拍攝的部分，會在后期進行背景疊加或其他處理工作，通過在人物背后放置綠幕的方式，把人物主體提取出來。

綠幕摳圖要求輸入的是藍幕或者綠幕視頻，分辨率不超過4K，同時輸入一張背景圖片，即可輸出替換背景后的視頻。以下為示例說明：一個人從綠幕前走過，替換背景后，變成此人在背景前走路，整體效果非常自然。

視頻鏈接：https://v.youku.com/v_show/id_XNTk0MDc4Mjc3Mg==.html

視頻鏈接： https://v.youku.com/v_show/id_XNTk0MDc4Mjc5Ng==.html
?
如何評價綠幕摳圖的質(zhì)量？首先要處理好邊緣溢色，比如在頭發(fā)邊緣，由于原始的圖像背景是綠幕，頭發(fā)縫邊緣必然會染上一些綠色，技術(shù)上需要把這些邊緣溢色擦除掉。

此外，如何真實地呈現(xiàn)透明度，并疊加背后的內(nèi)容，還有運動模糊，地面陰影等，均是綠幕摳圖質(zhì)量好壞的評價點。
?

橫轉(zhuǎn)豎

?
橫轉(zhuǎn)豎是在移動互聯(lián)網(wǎng)上分發(fā)視頻的必備處理手段。

傳統(tǒng)人工制作橫轉(zhuǎn)豎視頻的難點在于：一，需要專業(yè)的剪輯軟件和制作人員，成本高，速度慢；二，在目標移動比較快的場景中，需要逐幀剪裁，工作量巨大；三，剪裁目標區(qū)域后，前后幀難以對齊。因此，橫轉(zhuǎn)豎視頻更適合由機器制作實現(xiàn)。

智能橫轉(zhuǎn)豎的算法流程是：首先對視頻進行鏡頭分割，所謂的鏡頭分割就是在視頻制作中，按照不同拍攝機位的轉(zhuǎn)變，識別鏡頭的切換，并把不同鏡頭分割開來。
?

視頻鏈接：https://v.youku.com/v_show/id_XNTk0MDg4MjA0NA==.html
?
其次是主體選擇，在主體選擇時，一般選擇畫面中最醒目的人作為目標，在上述舞蹈場景中，主體就是這個正在跳舞的人。

然后是鏡頭追蹤，每幀圖像做好初期選擇之后，下一幀都要跟隨目標，即框定的圖像跟隨這個人進行移動。

最后是路徑平滑，鏡頭追蹤完成之后，最終生成的豎屏視頻必須是平滑的，不能出現(xiàn)翹邊等不良效果。更多內(nèi)容可參見官網(wǎng)：

體驗中心：https://retina.aliyun.com/#/H2V

API接入文檔：https://help.aliyun.com/document_detail/169896.html
?

其他視頻智能處理能力

?
目前，阿里云視頻云提供的視頻智能處理能力，可分為以下四類：

ROI提取，即感興趣區(qū)域提取，包括綠幕摳圖和橫轉(zhuǎn)豎；

智能擦除，比如去圖標、去字幕；

關(guān)鍵信息提煉，比如智能封面，即從視頻中提取出最能表現(xiàn)視頻的一張圖片；視頻摘要，提取出視頻中最能表現(xiàn)視頻的簡短視頻；

結(jié)構(gòu)化分析，比如字幕提取，把嵌入在圖像中的字幕自動提取出來；PPT拆條，可以將一個課程視頻自動拆成段落。

?

?
講完視頻智能處理能力，接下來介紹兩項音頻智能處理能力：副歌識別和節(jié)奏檢測。
?

副歌識別

?
副歌是指歌曲中的高潮片段。副歌識別有何應(yīng)用場景？比如，很多音樂APP的試聽功能，會直接播放歌曲中的高潮片段，人為進行提取相當麻煩，而副歌識別就能很好地完成任務(wù)。

副歌識別的算法流程為：輸入歌曲之后，首先進行音樂段落檢測，然后提取副歌段落，并進行精調(diào)使之更貼合，最后再生成副歌片段。

?

?
副歌識別的示例顯示，通過調(diào)用之后，算法會返回兩個結(jié)果值，即副歌的開始時間點和結(jié)束時間點。
?

?
大家可以對返回的結(jié)果和音頻進行對照，從72秒副歌開始，到102秒副歌結(jié)束，副歌識別結(jié)果還是非常準確的。
?

節(jié)奏檢測

?
節(jié)奏檢測即識別音樂中的節(jié)奏點，其主要應(yīng)用場景為視頻制作和音樂推薦，比如，通過識別出音樂節(jié)奏點，進行鬼畜視頻的制作；通過識別音樂的節(jié)拍類型，是四三拍還是四四拍，幫助進行音樂分類等。

繼續(xù)以上述音頻示例，節(jié)奏檢測算法輸出兩個結(jié)果：第一個是節(jié)拍時間點，如0.46秒、0.96秒均為節(jié)拍時間點；第二個是downbeat時間點，在樂理中解釋為重拍，其中0.46秒為第一拍，2.46秒為第五拍，也就是說每四拍為一個小節(jié)，每小節(jié)的第一拍為重拍，由此檢測出該音樂的節(jié)奏。
?

其他音頻智能處理能力

?
此外，視頻云還提供其他音頻智能處理能力，包括混音，ASR語音識別和TTS語音合成?；煲艏窗褍蓚€音樂片段進行疊加，其中涉及到音量增益和自動控制算法。

這些能力進行組合，還可以實現(xiàn)更多玩法，比如歌曲串燒，首先通過副歌識別，把幾首歌曲的副歌部分提取出來，然后進行節(jié)奏檢測，把合適的節(jié)拍點合在一起，最終組合成一首完整的歌曲串燒。
?

04 開箱即用：阿里云媒資服務(wù)

?
基于視頻AI原理以及效果，阿里云利用現(xiàn)有資源，提供更方便、更高效的音視頻AI使用能力。
?

MPS服務(wù)

?
MPS是媒體處理的英文簡稱。阿里云提供針對多媒體的數(shù)據(jù)處理服務(wù)，將媒體處理過程抽象成兩種模式：一種是輸入音視頻等多媒體文件，經(jīng)過智能化媒體處理，生成一個新的媒體文件，比如之前提到的智能橫轉(zhuǎn)豎。

另一種模式是輸入一個媒體文件，輸出經(jīng)過媒體處理分析后的一系列結(jié)構(gòu)化數(shù)據(jù)，比如智能標簽或智能審核。

MPS支持多項音視頻智能處理能力，此外，MPS的媒體文件類型，既可以輸入OSS文件，也支持輸入網(wǎng)絡(luò)URL地址。

?

?
MPS接口調(diào)用的流程為：

第一步，開通MPS產(chǎn)品，在開通的過程中，控制臺會引導(dǎo)進行增加權(quán)限等相關(guān)操作。

開通MPS產(chǎn)品：https://www.aliyun.com/product/mts

第二步，調(diào)用MPS的Open API接口，獲得Access Key，包括AK的ID和密鑰。所有阿里云的Open API都要通過AK和SK訪問。

使用RAM服務(wù)獲取AccessKey：https://ram.console.aliyun.com/manage/ak

第三步，認真閱讀MPS提供的API文檔：https://help.aliyun.com/document_detail/29210.html

第四步，針對開發(fā)需要，選用不同編程語言，并安裝依賴模塊：https://help.aliyun.com/document_detail/188024.html

第五步，編寫代碼。

阿里云MPS服務(wù)提供的智能化能力可以分為四個維度：

一是視頻內(nèi)容理解，包含智能標簽，智能審核，媒體DNA，媒體DNA是視頻檢索中的重要組成部分，還有智能封面、視頻摘要等。

二是視頻智能處理，像橫轉(zhuǎn)豎、去圖標、去字幕、字幕提取等，從電視劇或電影中抽取出字幕，并輸出TXT或者SRT格式，此外，也包括綠幕摳圖和PPT拆條等。

三是音頻智能處理，包含副歌檢測、混音處理、節(jié)奏檢測和音質(zhì)檢測等。

四是圖片智能處理，包含橫轉(zhuǎn)豎、去圖標和人像風(fēng)格化。人像風(fēng)格化可以把一張人像圖片風(fēng)格化成不同的形式，比如把人像進行卡通化，或者進行3D處理。
?

IMS服務(wù)

?
IMS服務(wù)是阿里云近年來新上的服務(wù)，全稱是智能媒體服務(wù)，和MPS服務(wù)的區(qū)別在于：

IMS服務(wù)圍繞直播和點播場景，是針對媒體處理的全流程服務(wù)，可認為是MPS服務(wù)的重大產(chǎn)品迭代和升級。

第一，IMS不僅針對于單個媒體處理過程，而是對于媒體服務(wù)全流程、全生產(chǎn)周期的管理和制作；

第二，IMS的集成度更高，不光可以進行單個原子能力的音視頻處理，還可以進行媒資管理、工作流觸發(fā)等，讓開發(fā)者更方便地使用音視頻智能化能力；

第三，IMS更智能，后續(xù)所有智能化能力升級后都會集中體現(xiàn)在IMS服務(wù)中。

?

?
IMS控制臺融合了媒資管理，媒資庫中的音頻視頻文件，包括圖片、輔助的媒資，都可以通過IMS服務(wù)進行展示和管理。

利用多模檢索的智能化能力，IMS可以實現(xiàn)多媒體文件的智能化檢索。傳統(tǒng)的音視頻文件檢索，只能針對標題或者簡介進行，而IMS支持對上傳的音視頻文件做AI自動分類，并根據(jù)分類結(jié)果進行搜索，同時，也支持對視頻中的文字進行自動識別檢索。

比如，新聞聯(lián)播的畫面中出現(xiàn)了“康輝”兩個字樣，雖然視頻文件的標題和簡介里都沒有出現(xiàn)過“康輝”，但在搜索“康輝”時，AI還是可以搜索識別出此視頻文件，這就是多模檢索的能力。

?

?

Retina多媒體AI體驗中心

?
上述MPS和IMS服務(wù)的智能化能力，都需要通過Open API調(diào)用或者控制臺開通使用，而Retina體驗中心可以讓大家更方便快捷地進行體驗，只需上傳視頻或圖片，就可以直觀地得到經(jīng)過智能化處理后的結(jié)果。

例如，在Retina平臺，你可以體驗人像卡通化的效果，只需上傳一張人像圖片，經(jīng)過自動處理，就能獲得童話風(fēng)格的卡通人像圖片，更多體驗就在：http://retina.aliyun.com/

?
隨著視頻與AI技術(shù)的發(fā)展和演進，AI在媒體生產(chǎn)領(lǐng)域中發(fā)揮著越來越重要的作用，以更快的速度、更高的效率完成之前難以實現(xiàn)的事情。

未來，AI將從輔助媒體生產(chǎn)，逐漸轉(zhuǎn)變?yōu)橹苯由a(chǎn)有意義、有價值、有情感的視頻，進一步加速媒體生產(chǎn)制作全自動處理進程。

更多完整內(nèi)容詳見課程回放 ??
?

視頻鏈接：https://v.youku.com/v_show/id_XNTk0MjQ4Mjk5Mg==.html

總結(jié)

以上是生活随笔為你收集整理的云端智创 | 基于视频AI原理的音视频智能处理技术的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： taro小程序函数组件实现分享功能
下一篇： AI 趋势