系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
(本文閱讀時間:10?分鐘)
編者按:語音合成一直以來是語言、語音、深度學(xué)習(xí)及人工智能等領(lǐng)域的熱門研究方向,受到了學(xué)術(shù)界和工業(yè)界廣泛的關(guān)注。盡管語音合成技術(shù)的研究已有幾十年的歷史,基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)也有近十年歷史,且已產(chǎn)出了大量的優(yōu)質(zhì)研究成果,但針對神經(jīng)語音合成不同研究方向的整合型綜述論文卻十分匱乏。近日,微軟亞洲研究院的研究員們通過調(diào)研了450余篇語音合成領(lǐng)域的文獻(xiàn),發(fā)表了迄今為止語音合成領(lǐng)域幾乎最詳盡的綜述論文 “A Survey on Neural Speech Synthesis”。在文中,研究員們還整理收集了語音合成領(lǐng)域的相關(guān)資源如數(shù)據(jù)集、開源實現(xiàn)、演講教程等,同時也對語音合成領(lǐng)域未來的研究方向進行了探討和展望。希望本文能對相關(guān)工作的研究人員提供具有價值的參考。
文本到語音合成旨在從文本合成高可懂度和自然度的語音,很久以來一直是語言、語音、深度學(xué)習(xí)、人工智能等領(lǐng)域熱門的研究方向,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。近年來,隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語音合成極大地提高了合成語音的質(zhì)量。盡管語音合成技術(shù)的研究已有幾十年的歷史,基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)也有近十年的發(fā)展,領(lǐng)域內(nèi)產(chǎn)出了大量的優(yōu)質(zhì)研究成果,但針對不同研究方向的整合型綜述論文卻十分匱乏。
因此,微軟亞洲研究院的研究員們發(fā)表了一篇綜述論文 “A Survey on Neural Speech Synthesis”,全面梳理、總結(jié)了神經(jīng)語音合成領(lǐng)域的發(fā)展現(xiàn)狀以及未來發(fā)展方向。該文章可謂是迄今為止語音合成領(lǐng)域幾乎最為詳盡的綜述論文。研究員們共調(diào)研了450多篇文獻(xiàn),分別從語音合成的核心模塊(文本分析、聲學(xué)模型、聲碼器)以及進階主題(快速語音合成、低資源語音合成、魯棒語音合成、富有表現(xiàn)力的語音合成、可適配語音合成)兩大方面對該領(lǐng)域的工作進行了梳理總結(jié)。同時,研究員們還收集了語音合成領(lǐng)域的相關(guān)資源(數(shù)據(jù)集、開源實現(xiàn)、演講教程等)并且討論了未來研究方向。
論文鏈接:https://arxiv.org/pdf/2106.15561.pdf
論文從兩個方面對神經(jīng)語音合成領(lǐng)域的發(fā)展現(xiàn)狀進行了梳理總結(jié)(邏輯框架如圖1所示):
核心模塊:分別從文本分析(textanalysis)、聲學(xué)模型(acoustic model)、聲碼器(vocoder)、完全端到端模型(fully end-to-end model)等方面進行介紹。
進階主題:分別從快速語音合成(fast TTS)、低資源語音合成(low-resourceTTS)、魯棒語音合成(robust TTS)、富有表現(xiàn)力的語音合成(expressive TTS)、可適配語音合成(adaptive TTS)等方面進行介紹。
圖1:論文邏輯框架
TTS 核心模塊
研究員們根據(jù)神經(jīng)語音合成系統(tǒng)的核心模塊提出了一個分類體系。每個模塊分別對應(yīng)特定的數(shù)據(jù)轉(zhuǎn)換流程:
1)文本分析模塊將文本字符轉(zhuǎn)換成音素或語言學(xué)特征;
2)聲學(xué)模型將語言學(xué)特征、音素或字符序列轉(zhuǎn)換成聲學(xué)特征;
3)聲碼器將語言學(xué)特征或聲學(xué)特征轉(zhuǎn)換成語音波形;
4)完全端到端模型將字符或音素序列轉(zhuǎn)換成語音波形。
圖2:(a)TTS核心框架,(b)數(shù)據(jù)轉(zhuǎn)換流程
文本分析
文章總結(jié)了文本分析模塊幾個常見的任務(wù),包括文本歸一化、分詞、詞性標(biāo)注、韻律預(yù)測、字形轉(zhuǎn)音形以及多音字消歧等。
表1:文本分析模塊中的常見任務(wù)
聲學(xué)模型
在聲學(xué)模型部分,文章首先簡要介紹了在統(tǒng)計參數(shù)合成里用到的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,然后重點介紹了端到端模型的神經(jīng)聲學(xué)模型,包括基于?RNN、CNN?和Transformer?的聲學(xué)模型以及其它基于?Flow、GAN、VAE、Diffusion?的聲學(xué)模型。
表2:不同聲學(xué)模型及其特征
聲碼器
聲碼器的發(fā)展分為兩個階段,包括傳統(tǒng)參數(shù)合成里的聲碼器如 STRAIGHT和 WORLD,以及基于神經(jīng)網(wǎng)絡(luò)的聲碼器。論文重點介紹了基于神經(jīng)網(wǎng)絡(luò)的聲碼器,并把相關(guān)工作分為以下幾類,包括:
1)自回歸聲碼器(WaveNet,SampleRNN,WaveRNN,LPCNet 等);
2)基于 Flow 的聲碼器(WaveGlow,FloWaveNet,WaveFlow,Par. WaveNet 等);
3)基于 GAN 的聲碼器(WaveGAN,GAN-TTS,MelGAN,Par. WaveGAN,HiFi-GAN,VocGAN,GED,Fre-GAN 等);
4)基于 VAE 的聲碼器(WaveVAE等);
5)基于 Diffusion 的聲碼器(DiffWave,WaveGrad,PriorGrad 等)。
表3:不同聲碼器及其特征
本文還針對基于?Flow?和?GAN?的聲碼器做了詳細(xì)分析,如表4和表5所示。
表4:基于Flow的聲碼器
表5:基于GAN的聲碼器
最后研究員們還統(tǒng)一分析、比較了基于不同生成模型的聲碼器的優(yōu)缺點,如表6所示。
表6:基于不同生成模型的聲碼器分析結(jié)果
完全端到端模型
端到端模型的發(fā)展經(jīng)歷了以下幾個階段:
階段0:在統(tǒng)計參數(shù)合成方法中,使用文本分析、聲學(xué)模型和聲碼器三個模塊級聯(lián);
階段1:在統(tǒng)計參數(shù)合成方法中,將前兩個模塊合起來形成一個聲學(xué)模型;
階段2:直接從語言學(xué)特征生成最終的波形,例如 WaveNet;
階段3:聲學(xué)模型直接從字符或音素生成聲學(xué)模型,然后利用神經(jīng)聲碼器生成波形;
階段4:完全端到端的神經(jīng)網(wǎng)絡(luò)模型。
圖3:端到端模型發(fā)展過程
其它分類體系
除了上述按照?TTS?模型的核心模塊進行分類的方法,論文中還有從其它角度對?TTS?模型進行分類的方法,如圖4所示,包括:1)自回歸 vs 非自回歸;2)生成模型的類型;3)網(wǎng)絡(luò)結(jié)構(gòu)的類型。
圖4:從其它角度對TTS模型進行分類
同時,本文還繪制了相關(guān) TTS 工作隨著時間變化的關(guān)系圖,方便讀者更直觀地理解各個 TTS 模型及其在 TTS 發(fā)展中的位置。
圖5:相關(guān) TTS 工作隨時間演化的關(guān)系圖
TTS 進階課題
研究員們還針對 TTS 面臨的各種挑戰(zhàn),介紹了相關(guān)的進階課題,包括快速語音合成(fast TTS)、低資源語音合成(low-resource TTS)、魯棒語音合成(robust TTS)、富有表現(xiàn)力的語音合成(expressive TTS)、可適配語音合成(adaptive TTS)等。
圖6:TTS 相關(guān)的進階課題
快速語音合成
為了實現(xiàn)快速語音合成,常用的技術(shù)一般有以下幾種:1)并行生成;2)輕量級模型設(shè)計;3)利用領(lǐng)域知識進行加速。其中,并行生成技術(shù)的分類以及相關(guān)工作可見表7。
表7:并行生成技術(shù)的分類以及相關(guān)工作
低資源語音合成
低資源語音合成相關(guān)技術(shù)以及相關(guān)工作,如表8所示。
表8:低資源語音合成相關(guān)技術(shù)以及相關(guān)工作
魯棒語音合成
魯棒語音合成相關(guān)技術(shù)分類,可見表9。
表9:魯棒語音合成相關(guān)技術(shù)分類
富有表現(xiàn)力的語音合成
富有表現(xiàn)力的語音合成的關(guān)鍵在于對可變信息的建模,表10從不同角度總結(jié)了可變信息建模的相關(guān)工作。
表10:富有表現(xiàn)力的語音合成
可適配語音合成
可適配語音合成相關(guān)的技術(shù)分類見表11。
表11:可適配語音合成
最后,研究員們還收集了 TTS 領(lǐng)域相關(guān)的資源,包括開源代碼、TTS 教程、公開比賽以及數(shù)據(jù)集等。同時,文章也指出了 TTS 領(lǐng)域的潛在研究挑戰(zhàn),并且根據(jù) TTS 要實現(xiàn)的最終遠(yuǎn)景和目標(biāo),將其分為兩個大方向:高質(zhì)量的語音合成以及高效率的語音合成。
在高質(zhì)量的語音合成方面,包括以下研究課題:更加強大的生成模型,更好的面向文本和語音的表征學(xué)習(xí),魯棒的語音合成,富有表現(xiàn)力/可控/風(fēng)格可遷移的語音合成,更符合人類表達(dá)風(fēng)格的語音合成。在更高效的語音合成方面,包括在數(shù)據(jù)、模型參數(shù)、計算等方面設(shè)計更高效、利用資源更少的語音合成系統(tǒng)。
研究員們希望這篇綜述論文能對語音合成領(lǐng)域的相關(guān)工作人員提供有價值的參考,也希望這個領(lǐng)域的同行能提供意見和建議,一起共同維護、更新這篇綜述論文。歡迎將反饋提交到 GitHub 頁面 https://github.com/tts-tutorial/survey?或者發(fā)郵件至 xuta@microsoft.com。
相關(guān)鏈接:
https://www.microsoft.com/en-us/research/project/text-to-speech/
https://speechresearch.github.io/
https://www.microsoft.com/en-us/research/people/xuta/
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蚊子怎么杀
- 下一篇: 对话系统有哪些最新进展?这17篇EMNL