日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

AI在实时音视频互动中应用的 n 种姿势

發(fā)布時(shí)間:2023/12/14 ChatGpt 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AI在实时音视频互动中应用的 n 种姿势 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在場(chǎng)景需求的推動(dòng)下,以及背后算法、算力、數(shù)據(jù)的支撐下,AI 已經(jīng)慢慢走出實(shí)驗(yàn)室,開(kāi)始擁抱產(chǎn)業(yè),這其中也包括 RTC 行業(yè)。在實(shí)時(shí)的視頻、實(shí)時(shí)音頻、實(shí)時(shí)傳輸、視頻內(nèi)容檢索與推薦、實(shí)時(shí)交互等層面,都已經(jīng)出現(xiàn)了與 AI 結(jié)合的落地應(yīng)用。

從實(shí)時(shí)的視頻來(lái)講,超分辨率就是最典型的應(yīng)用之一。在深度學(xué)習(xí)的幫助下,我們可以在視頻接收端提高原有圖像的分辨率,得到高分辨率的圖像,這個(gè)過(guò)程就是超分辨率重建。我們以前也分享過(guò)一些知名的算法模型。實(shí)時(shí)音頻方面,我們可以看到很多 AI 的應(yīng)用。例如帶寬擴(kuò)展,在我們通話的過(guò)程中,對(duì)方的聲音聽(tīng)起來(lái)有些悶,這是因?yàn)檎Z(yǔ)音信號(hào)中的高頻區(qū)域被移除掉了。而基于DNN的頻帶擴(kuò)展則可將高頻區(qū)域恢復(fù)出來(lái),就像下圖這樣。經(jīng)過(guò)頻帶擴(kuò)展后的信號(hào)增加了很多高頻信息,實(shí)際的聽(tīng)感也會(huì)更加明亮、清晰。

除此之外,AI 在實(shí)時(shí)語(yǔ)音上的應(yīng)用還包括語(yǔ)音增強(qiáng)、基于 RNN 的丟包恢復(fù)、語(yǔ)音音樂(lè)分類(lèi)器等。AI的發(fā)展使得音頻領(lǐng)域有了更多的可能性去解決之前難以處理的問(wèn)題。對(duì)于實(shí)時(shí)音頻而言,AI是一把全面提升質(zhì)量的利刃,但實(shí)時(shí)音頻所必須的低復(fù)雜度、低延時(shí)特性注定全面AI化引擎還有很長(zhǎng)的路要走。另外,除了實(shí)時(shí)音視頻,AI 還可以用于改善實(shí)時(shí)傳輸質(zhì)量,也可以用于視頻內(nèi)容的檢索與推薦,或進(jìn)行音視頻內(nèi)容審核。以上這些相關(guān)話題,你都可以在今年的 RTC 實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)上聽(tīng)到在 RTC 2019 實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)的「AI 與 RTC 技術(shù)專場(chǎng)」,來(lái)自聲網(wǎng)Agora、Hulu、依圖科技、南京大學(xué)的演講人們將從分享 AI 在移動(dòng)端實(shí)時(shí)視頻超分辨率、音頻優(yōu)化、傳輸優(yōu)化、視頻內(nèi)容推薦、音頻內(nèi)容審核等角度分享實(shí)踐經(jīng)驗(yàn)。細(xì)數(shù)下來(lái),今年幾十個(gè)演講中,有近 1/3 的演講都與深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)相關(guān)。同時(shí),在大會(huì)第一天上午的主會(huì)中,聲網(wǎng)Agora 首席科學(xué)家鐘聲、搜狗公司AI交互事業(yè)部高級(jí)總監(jiān)、語(yǔ)音技術(shù)部負(fù)責(zé)人陳偉,也將圍繞 AI 與 RTC 深入分享更多技術(shù)實(shí)踐與趨勢(shì)。

大會(huì)門(mén)票限時(shí)免費(fèi)截止到 9 月 30 日,掃碼報(bào)名

部分演講議題

Topic:Deep Learning based Super Resolution for mobile RTC

Speaker:周世付 聲網(wǎng)Agora AI 算法工程師

近幾年,超分辨率技術(shù)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱門(mén)話題,其應(yīng)用前景廣泛,比如RTC。然后,超分辨率技術(shù)在移動(dòng)端落地的過(guò)程中,面臨著模型過(guò)大、運(yùn)算復(fù)雜、設(shè)備發(fā)熱過(guò)大的問(wèn)題。本次演講內(nèi)容將重點(diǎn)分享超分辨技術(shù)在移動(dòng)端落地的探索和實(shí)踐經(jīng)驗(yàn),內(nèi)容包括對(duì)抗神經(jīng)網(wǎng)絡(luò)、模型剪枝壓縮等。

Topic:基于內(nèi)容的視頻推薦和實(shí)踐

Speaker:謝曉輝 Hulu 首席研發(fā)經(jīng)理

視頻網(wǎng)站面臨的技術(shù)挑戰(zhàn)之一是如何對(duì)視頻做精準(zhǔn)的用戶分發(fā),理解用戶、環(huán)境和視頻內(nèi)容是解決問(wèn)題的核心和關(guān)鍵。以頭部視頻為主的視頻網(wǎng)站由于用戶選擇成本更高、消費(fèi)行為稀疏、復(fù)雜而且感性,因此對(duì)視頻進(jìn)行精確、細(xì)致與豐富的理解和刻畫(huà)顯得更為重要。相比傳統(tǒng)的基于用戶行為的推薦系統(tǒng),如何借助于視頻內(nèi)容理解來(lái)優(yōu)化個(gè)性化推薦和內(nèi)容發(fā)現(xiàn)呢?本次演講內(nèi)容將重點(diǎn)分享Hulu在這一方面的探索和實(shí)踐經(jīng)驗(yàn),內(nèi)容包括視頻理解在內(nèi)容冷啟動(dòng)、視頻精細(xì)化標(biāo)簽和分組、深度推薦模型中的應(yīng)用等等。

Topic:RTC x Audio x AI,現(xiàn)狀和展望

Speaker:陳若非?聲網(wǎng)Agora 音頻體驗(yàn)與工程總監(jiān)

本次演講會(huì)從一個(gè)相對(duì)宏觀的角度來(lái)分析介紹人人和人機(jī)交互相關(guān)的音頻技術(shù)分類(lèi),現(xiàn)狀總結(jié)和對(duì)未來(lái)的展望。其中會(huì)重點(diǎn)展開(kāi)RTC與音頻,AI結(jié)合的部分,我們需要解決哪些問(wèn)題,有什么挑戰(zhàn),AI能在哪些方面幫到我們,聲網(wǎng)在這些方面的一些思考和進(jìn)展,其中也包括了AI降噪,AI丟包隱藏,聲音美化等音效的成果展示。

Topic:互聯(lián)網(wǎng)語(yǔ)音內(nèi)容審核中的關(guān)鍵AI技術(shù)

Speaker:胡泊 依圖科技 高級(jí)架構(gòu)師

相較于成熟的圖片、視頻審核,語(yǔ)音是行業(yè)公認(rèn)的新難題。語(yǔ)音違規(guī)不僅風(fēng)險(xiǎn)更隱蔽、影響更惡劣,其對(duì)應(yīng)的AI技術(shù)也存在更高的壁壘。難點(diǎn)一:高復(fù)雜度場(chǎng)景下的語(yǔ)音識(shí)別。語(yǔ)聊房、視頻直播、短視頻中的語(yǔ)音往往伴有極強(qiáng)背景音(如音樂(lè)、噪聲等)、語(yǔ)速極快咬字不清、口音嚴(yán)重等情況, 使得其識(shí)別難度數(shù)倍于傳統(tǒng)場(chǎng)景。難點(diǎn)二:極低誤報(bào)率要求下的違規(guī)內(nèi)容過(guò)濾。上述場(chǎng)景中,違規(guī)內(nèi)容出現(xiàn)的概率往往在萬(wàn)分之一甚至十萬(wàn)分之一,這就要求算法模型在不漏太多的情況下盡可能的減少誤報(bào)(從而減少人工審核的工作量)。本次演講,依圖將結(jié)合自身經(jīng)驗(yàn),介紹如何有針對(duì)性的進(jìn)行技術(shù)實(shí)現(xiàn)和方案設(shè)計(jì),克服以上難點(diǎn)。

Topic:基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)傳輸

Speaker:馬展 南京大學(xué)電子學(xué)院副教授、博士生導(dǎo)師

網(wǎng)絡(luò)是動(dòng)態(tài)變化的,如帶寬波動(dòng)和意想不到的延遲,傷害用戶的體驗(yàn)質(zhì)量(QoE),而且全球網(wǎng)絡(luò)媒體服務(wù)都需要面對(duì)這個(gè)問(wèn)題。在這次演講中,我們提出了一個(gè)神經(jīng)自適應(yīng)傳輸(NAT)框架解決全球網(wǎng)絡(luò)規(guī)模下互動(dòng)媒體服務(wù)的網(wǎng)絡(luò)問(wèn)題。整個(gè)神經(jīng)自適應(yīng)傳輸(NAT)系統(tǒng)有三個(gè)主要組成部分:一個(gè)基于學(xué)習(xí)的云覆蓋層路由(COR)方案,通過(guò)繞過(guò)網(wǎng)絡(luò)擁塞并找到最低延時(shí)路徑,提供最佳傳輸路徑;一個(gè)基于協(xié)同視頻處理(CVP)系統(tǒng)的殘余神經(jīng)網(wǎng)絡(luò)在設(shè)備端來(lái)協(xié)調(diào)端上的計(jì)算能力,通過(guò)學(xué)習(xí)分辨率縮放來(lái)改進(jìn)QoE;還有一個(gè)深度強(qiáng)化學(xué)習(xí)(DRL)的自適應(yīng)實(shí)時(shí)流(ARS)策略,用來(lái)選擇適當(dāng)?shù)囊曨l比特率,以獲得最大QoE。我們驗(yàn)證過(guò)COR可以提高用戶滿意度5%到43%,CVP可以減少相同質(zhì)量下帶寬消耗的30%以上,基于DRL的ARS可以保證流媒體流暢度,QoE也可改善50%以上。

以上只是一部分與 AI 相關(guān)的話題,可以在「閱讀原文」找到更多干貨演講。

RTC 2019?門(mén)票限免至 9 月 30 日,趕快報(bào)名吧

總結(jié)

以上是生活随笔為你收集整理的AI在实时音视频互动中应用的 n 种姿势的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。