日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述

發(fā)布時間:2024/10/8 windows 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

(本文閱讀時間:10?分鐘)

編者按:語音合成一直以來是語言、語音、深度學(xué)習(xí)及人工智能等領(lǐng)域的熱門研究方向,受到了學(xué)術(shù)界和工業(yè)界廣泛的關(guān)注。盡管語音合成技術(shù)的研究已有幾十年的歷史,基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)也有近十年歷史,且已產(chǎn)出了大量的優(yōu)質(zhì)研究成果,但針對神經(jīng)語音合成不同研究方向的整合型綜述論文卻十分匱乏。近日,微軟亞洲研究院的研究員們通過調(diào)研了450余篇語音合成領(lǐng)域的文獻(xiàn),發(fā)表了迄今為止語音合成領(lǐng)域幾乎最詳盡的綜述論文 “A Survey on Neural Speech Synthesis”。在文中,研究員們還整理收集了語音合成領(lǐng)域的相關(guān)資源如數(shù)據(jù)集、開源實現(xiàn)、演講教程等,同時也對語音合成領(lǐng)域未來的研究方向進行了探討和展望。希望本文能對相關(guān)工作的研究人員提供具有價值的參考。

文本到語音合成旨在從文本合成高可懂度和自然度的語音,很久以來一直是語言、語音、深度學(xué)習(xí)、人工智能等領(lǐng)域熱門的研究方向,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。近年來,隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語音合成極大地提高了合成語音的質(zhì)量。盡管語音合成技術(shù)的研究已有幾十年的歷史,基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)也有近十年的發(fā)展,領(lǐng)域內(nèi)產(chǎn)出了大量的優(yōu)質(zhì)研究成果,但針對不同研究方向的整合型綜述論文卻十分匱乏。

因此,微軟亞洲研究院的研究員們發(fā)表了一篇綜述論文 “A Survey on Neural Speech Synthesis”,全面梳理、總結(jié)了神經(jīng)語音合成領(lǐng)域的發(fā)展現(xiàn)狀以及未來發(fā)展方向。該文章可謂是迄今為止語音合成領(lǐng)域幾乎最為詳盡的綜述論文。研究員們共調(diào)研了450多篇文獻(xiàn),分別從語音合成的核心模塊(文本分析、聲學(xué)模型、聲碼器)以及進階主題(快速語音合成、低資源語音合成、魯棒語音合成、富有表現(xiàn)力的語音合成、可適配語音合成)兩大方面對該領(lǐng)域的工作進行了梳理總結(jié)。同時,研究員們還收集了語音合成領(lǐng)域的相關(guān)資源(數(shù)據(jù)集、開源實現(xiàn)、演講教程等)并且討論了未來研究方向。

論文鏈接:https://arxiv.org/pdf/2106.15561.pdf

論文從兩個方面對神經(jīng)語音合成領(lǐng)域的發(fā)展現(xiàn)狀進行了梳理總結(jié)(邏輯框架如圖1所示):

  • 核心模塊:分別從文本分析(textanalysis)、聲學(xué)模型(acoustic model)、聲碼器(vocoder)、完全端到端模型(fully end-to-end model)等方面進行介紹。

  • 進階主題:分別從快速語音合成(fast TTS)、低資源語音合成(low-resourceTTS)、魯棒語音合成(robust TTS)、富有表現(xiàn)力的語音合成(expressive TTS)、可適配語音合成(adaptive TTS)等方面進行介紹。

圖1:論文邏輯框架

TTS 核心模塊

研究員們根據(jù)神經(jīng)語音合成系統(tǒng)的核心模塊提出了一個分類體系。每個模塊分別對應(yīng)特定的數(shù)據(jù)轉(zhuǎn)換流程:

1)文本分析模塊將文本字符轉(zhuǎn)換成音素或語言學(xué)特征;

2)聲學(xué)模型將語言學(xué)特征、音素或字符序列轉(zhuǎn)換成聲學(xué)特征;

3)聲碼器將語言學(xué)特征或聲學(xué)特征轉(zhuǎn)換成語音波形;

4)完全端到端模型將字符或音素序列轉(zhuǎn)換成語音波形。

圖2:(a)TTS核心框架,(b)數(shù)據(jù)轉(zhuǎn)換流程

文本分析

文章總結(jié)了文本分析模塊幾個常見的任務(wù),包括文本歸一化、分詞、詞性標(biāo)注、韻律預(yù)測、字形轉(zhuǎn)音形以及多音字消歧等。

表1:文本分析模塊中的常見任務(wù)

聲學(xué)模型

在聲學(xué)模型部分,文章首先簡要介紹了在統(tǒng)計參數(shù)合成里用到的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,然后重點介紹了端到端模型的神經(jīng)聲學(xué)模型,包括基于?RNN、CNN?和Transformer?的聲學(xué)模型以及其它基于?Flow、GAN、VAE、Diffusion?的聲學(xué)模型。

表2:不同聲學(xué)模型及其特征

聲碼器

聲碼器的發(fā)展分為兩個階段,包括傳統(tǒng)參數(shù)合成里的聲碼器如 STRAIGHT和 WORLD,以及基于神經(jīng)網(wǎng)絡(luò)的聲碼器。論文重點介紹了基于神經(jīng)網(wǎng)絡(luò)的聲碼器,并把相關(guān)工作分為以下幾類,包括:

1)自回歸聲碼器(WaveNet,SampleRNN,WaveRNN,LPCNet 等);

2)基于 Flow 的聲碼器(WaveGlow,FloWaveNet,WaveFlow,Par. WaveNet 等);

3)基于 GAN 的聲碼器(WaveGAN,GAN-TTS,MelGAN,Par. WaveGAN,HiFi-GAN,VocGAN,GED,Fre-GAN 等);

4)基于 VAE 的聲碼器(WaveVAE等);

5)基于 Diffusion 的聲碼器(DiffWave,WaveGrad,PriorGrad 等)。

表3:不同聲碼器及其特征

本文還針對基于?Flow?和?GAN?的聲碼器做了詳細(xì)分析,如表4和表5所示。

表4:基于Flow的聲碼器

表5:基于GAN的聲碼器

最后研究員們還統(tǒng)一分析、比較了基于不同生成模型的聲碼器的優(yōu)缺點,如表6所示。

表6:基于不同生成模型的聲碼器分析結(jié)果

完全端到端模型

端到端模型的發(fā)展經(jīng)歷了以下幾個階段:

階段0:在統(tǒng)計參數(shù)合成方法中,使用文本分析、聲學(xué)模型和聲碼器三個模塊級聯(lián);

階段1:在統(tǒng)計參數(shù)合成方法中,將前兩個模塊合起來形成一個聲學(xué)模型;

階段2:直接從語言學(xué)特征生成最終的波形,例如 WaveNet;

階段3:聲學(xué)模型直接從字符或音素生成聲學(xué)模型,然后利用神經(jīng)聲碼器生成波形;

階段4:完全端到端的神經(jīng)網(wǎng)絡(luò)模型。

圖3:端到端模型發(fā)展過程

其它分類體系

除了上述按照?TTS?模型的核心模塊進行分類的方法,論文中還有從其它角度對?TTS?模型進行分類的方法,如圖4所示,包括:1)自回歸 vs 非自回歸;2)生成模型的類型;3)網(wǎng)絡(luò)結(jié)構(gòu)的類型。

圖4:從其它角度對TTS模型進行分類

同時,本文還繪制了相關(guān) TTS 工作隨著時間變化的關(guān)系圖,方便讀者更直觀地理解各個 TTS 模型及其在 TTS 發(fā)展中的位置。

圖5:相關(guān) TTS 工作隨時間演化的關(guān)系圖

TTS 進階課題

研究員們還針對 TTS 面臨的各種挑戰(zhàn),介紹了相關(guān)的進階課題,包括快速語音合成(fast TTS)、低資源語音合成(low-resource TTS)、魯棒語音合成(robust TTS)、富有表現(xiàn)力的語音合成(expressive TTS)、可適配語音合成(adaptive TTS)等。

圖6:TTS 相關(guān)的進階課題

快速語音合成

為了實現(xiàn)快速語音合成,常用的技術(shù)一般有以下幾種:1)并行生成;2)輕量級模型設(shè)計;3)利用領(lǐng)域知識進行加速。其中,并行生成技術(shù)的分類以及相關(guān)工作可見表7。

表7:并行生成技術(shù)的分類以及相關(guān)工作

低資源語音合成

低資源語音合成相關(guān)技術(shù)以及相關(guān)工作,如表8所示。

表8:低資源語音合成相關(guān)技術(shù)以及相關(guān)工作

魯棒語音合成

魯棒語音合成相關(guān)技術(shù)分類,可見表9。

表9:魯棒語音合成相關(guān)技術(shù)分類

富有表現(xiàn)力的語音合成

富有表現(xiàn)力的語音合成的關(guān)鍵在于對可變信息的建模,表10從不同角度總結(jié)了可變信息建模的相關(guān)工作。

表10:富有表現(xiàn)力的語音合成

可適配語音合成

可適配語音合成相關(guān)的技術(shù)分類見表11。

表11:可適配語音合成

最后,研究員們還收集了 TTS 領(lǐng)域相關(guān)的資源,包括開源代碼、TTS 教程、公開比賽以及數(shù)據(jù)集等。同時,文章也指出了 TTS 領(lǐng)域的潛在研究挑戰(zhàn),并且根據(jù) TTS 要實現(xiàn)的最終遠(yuǎn)景和目標(biāo),將其分為兩個大方向:高質(zhì)量的語音合成以及高效率的語音合成。

在高質(zhì)量的語音合成方面,包括以下研究課題:更加強大的生成模型,更好的面向文本和語音的表征學(xué)習(xí),魯棒的語音合成,富有表現(xiàn)力/可控/風(fēng)格可遷移的語音合成,更符合人類表達(dá)風(fēng)格的語音合成。在更高效的語音合成方面,包括在數(shù)據(jù)、模型參數(shù)、計算等方面設(shè)計更高效、利用資源更少的語音合成系統(tǒng)。

研究員們希望這篇綜述論文能對語音合成領(lǐng)域的相關(guān)工作人員提供有價值的參考,也希望這個領(lǐng)域的同行能提供意見和建議,一起共同維護、更新這篇綜述論文。歡迎將反饋提交到 GitHub 頁面 https://github.com/tts-tutorial/survey?或者發(fā)郵件至 xuta@microsoft.com。

相關(guān)鏈接:

https://www.microsoft.com/en-us/research/project/text-to-speech/

https://speechresearch.github.io/

https://www.microsoft.com/en-us/research/people/xuta/

????

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。