當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述

發(fā)布時間：2024/10/8 windows 44 豆豆

生活随笔收集整理的這篇文章主要介紹了系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

（本文閱讀時間：10?分鐘）

編者按：語音合成一直以來是語言、語音、深度學(xué)習(xí)及人工智能等領(lǐng)域的熱門研究方向，受到了學(xué)術(shù)界和工業(yè)界廣泛的關(guān)注。盡管語音合成技術(shù)的研究已有幾十年的歷史，基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)也有近十年歷史，且已產(chǎn)出了大量的優(yōu)質(zhì)研究成果，但針對神經(jīng)語音合成不同研究方向的整合型綜述論文卻十分匱乏。近日，微軟亞洲研究院的研究員們通過調(diào)研了450余篇語音合成領(lǐng)域的文獻(xiàn)，發(fā)表了迄今為止語音合成領(lǐng)域幾乎最詳盡的綜述論文 “A Survey on Neural Speech Synthesis”。在文中，研究員們還整理收集了語音合成領(lǐng)域的相關(guān)資源如數(shù)據(jù)集、開源實現(xiàn)、演講教程等，同時也對語音合成領(lǐng)域未來的研究方向進行了探討和展望。希望本文能對相關(guān)工作的研究人員提供具有價值的參考。

文本到語音合成旨在從文本合成高可懂度和自然度的語音，很久以來一直是語言、語音、深度學(xué)習(xí)、人工智能等領(lǐng)域熱門的研究方向，受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。近年來，隨著深度學(xué)習(xí)的發(fā)展，基于神經(jīng)網(wǎng)絡(luò)的語音合成極大地提高了合成語音的質(zhì)量。盡管語音合成技術(shù)的研究已有幾十年的歷史，基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)也有近十年的發(fā)展，領(lǐng)域內(nèi)產(chǎn)出了大量的優(yōu)質(zhì)研究成果，但針對不同研究方向的整合型綜述論文卻十分匱乏。

因此，微軟亞洲研究院的研究員們發(fā)表了一篇綜述論文 “A Survey on Neural Speech Synthesis”，全面梳理、總結(jié)了神經(jīng)語音合成領(lǐng)域的發(fā)展現(xiàn)狀以及未來發(fā)展方向。該文章可謂是迄今為止語音合成領(lǐng)域幾乎最為詳盡的綜述論文。研究員們共調(diào)研了450多篇文獻(xiàn)，分別從語音合成的核心模塊（文本分析、聲學(xué)模型、聲碼器）以及進階主題（快速語音合成、低資源語音合成、魯棒語音合成、富有表現(xiàn)力的語音合成、可適配語音合成）兩大方面對該領(lǐng)域的工作進行了梳理總結(jié)。同時，研究員們還收集了語音合成領(lǐng)域的相關(guān)資源（數(shù)據(jù)集、開源實現(xiàn)、演講教程等）并且討論了未來研究方向。

論文鏈接：https://arxiv.org/pdf/2106.15561.pdf

論文從兩個方面對神經(jīng)語音合成領(lǐng)域的發(fā)展現(xiàn)狀進行了梳理總結(jié)（邏輯框架如圖1所示）：

核心模塊：分別從文本分析（textanalysis）、聲學(xué)模型（acoustic model）、聲碼器（vocoder）、完全端到端模型（fully end-to-end model）等方面進行介紹。
進階主題：分別從快速語音合成（fast TTS）、低資源語音合成（low-resourceTTS）、魯棒語音合成（robust TTS）、富有表現(xiàn)力的語音合成（expressive TTS）、可適配語音合成（adaptive TTS）等方面進行介紹。

圖1：論文邏輯框架

TTS 核心模塊

研究員們根據(jù)神經(jīng)語音合成系統(tǒng)的核心模塊提出了一個分類體系。每個模塊分別對應(yīng)特定的數(shù)據(jù)轉(zhuǎn)換流程：

1）文本分析模塊將文本字符轉(zhuǎn)換成音素或語言學(xué)特征；

2）聲學(xué)模型將語言學(xué)特征、音素或字符序列轉(zhuǎn)換成聲學(xué)特征；

3）聲碼器將語言學(xué)特征或聲學(xué)特征轉(zhuǎn)換成語音波形；

4）完全端到端模型將字符或音素序列轉(zhuǎn)換成語音波形。

圖2：（a）TTS核心框架，（b）數(shù)據(jù)轉(zhuǎn)換流程

文本分析

文章總結(jié)了文本分析模塊幾個常見的任務(wù)，包括文本歸一化、分詞、詞性標(biāo)注、韻律預(yù)測、字形轉(zhuǎn)音形以及多音字消歧等。

表1：文本分析模塊中的常見任務(wù)

聲學(xué)模型

在聲學(xué)模型部分，文章首先簡要介紹了在統(tǒng)計參數(shù)合成里用到的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型，然后重點介紹了端到端模型的神經(jīng)聲學(xué)模型，包括基于?RNN、CNN?和Transformer?的聲學(xué)模型以及其它基于?Flow、GAN、VAE、Diffusion?的聲學(xué)模型。

表2：不同聲學(xué)模型及其特征

聲碼器

聲碼器的發(fā)展分為兩個階段，包括傳統(tǒng)參數(shù)合成里的聲碼器如 STRAIGHT和 WORLD，以及基于神經(jīng)網(wǎng)絡(luò)的聲碼器。論文重點介紹了基于神經(jīng)網(wǎng)絡(luò)的聲碼器，并把相關(guān)工作分為以下幾類，包括：

1）自回歸聲碼器（WaveNet，SampleRNN，WaveRNN，LPCNet 等）；

2）基于 Flow 的聲碼器（WaveGlow，FloWaveNet，WaveFlow，Par. WaveNet 等）；

3）基于 GAN 的聲碼器（WaveGAN，GAN-TTS，MelGAN，Par. WaveGAN，HiFi-GAN，VocGAN，GED，Fre-GAN 等）；

4）基于 VAE 的聲碼器（WaveVAE等）；

5）基于 Diffusion 的聲碼器（DiffWave，WaveGrad，PriorGrad 等）。

表3：不同聲碼器及其特征

本文還針對基于?Flow?和?GAN?的聲碼器做了詳細(xì)分析，如表4和表5所示。

表4：基于Flow的聲碼器

表5：基于GAN的聲碼器

最后研究員們還統(tǒng)一分析、比較了基于不同生成模型的聲碼器的優(yōu)缺點，如表6所示。

表6：基于不同生成模型的聲碼器分析結(jié)果

完全端到端模型

端到端模型的發(fā)展經(jīng)歷了以下幾個階段：

階段0：在統(tǒng)計參數(shù)合成方法中，使用文本分析、聲學(xué)模型和聲碼器三個模塊級聯(lián)；

階段1：在統(tǒng)計參數(shù)合成方法中，將前兩個模塊合起來形成一個聲學(xué)模型；

階段2：直接從語言學(xué)特征生成最終的波形，例如 WaveNet；

階段3：聲學(xué)模型直接從字符或音素生成聲學(xué)模型，然后利用神經(jīng)聲碼器生成波形；

階段4：完全端到端的神經(jīng)網(wǎng)絡(luò)模型。

圖3：端到端模型發(fā)展過程

其它分類體系

除了上述按照?TTS?模型的核心模塊進行分類的方法，論文中還有從其它角度對?TTS?模型進行分類的方法，如圖4所示，包括：1）自回歸 vs 非自回歸；2）生成模型的類型；3）網(wǎng)絡(luò)結(jié)構(gòu)的類型。

圖4：從其它角度對TTS模型進行分類

同時，本文還繪制了相關(guān) TTS 工作隨著時間變化的關(guān)系圖，方便讀者更直觀地理解各個 TTS 模型及其在 TTS 發(fā)展中的位置。

圖5：相關(guān) TTS 工作隨時間演化的關(guān)系圖

TTS 進階課題

研究員們還針對 TTS 面臨的各種挑戰(zhàn)，介紹了相關(guān)的進階課題，包括快速語音合成（fast TTS）、低資源語音合成（low-resource TTS）、魯棒語音合成（robust TTS）、富有表現(xiàn)力的語音合成（expressive TTS）、可適配語音合成（adaptive TTS）等。

圖6：TTS 相關(guān)的進階課題

快速語音合成

為了實現(xiàn)快速語音合成，常用的技術(shù)一般有以下幾種：1）并行生成；2）輕量級模型設(shè)計；3）利用領(lǐng)域知識進行加速。其中，并行生成技術(shù)的分類以及相關(guān)工作可見表7。

表7：并行生成技術(shù)的分類以及相關(guān)工作

低資源語音合成

低資源語音合成相關(guān)技術(shù)以及相關(guān)工作，如表8所示。

表8：低資源語音合成相關(guān)技術(shù)以及相關(guān)工作

魯棒語音合成

魯棒語音合成相關(guān)技術(shù)分類，可見表9。

表9：魯棒語音合成相關(guān)技術(shù)分類

富有表現(xiàn)力的語音合成

富有表現(xiàn)力的語音合成的關(guān)鍵在于對可變信息的建模，表10從不同角度總結(jié)了可變信息建模的相關(guān)工作。

表10：富有表現(xiàn)力的語音合成

可適配語音合成

可適配語音合成相關(guān)的技術(shù)分類見表11。

表11：可適配語音合成

最后，研究員們還收集了 TTS 領(lǐng)域相關(guān)的資源，包括開源代碼、TTS 教程、公開比賽以及數(shù)據(jù)集等。同時，文章也指出了 TTS 領(lǐng)域的潛在研究挑戰(zhàn)，并且根據(jù) TTS 要實現(xiàn)的最終遠(yuǎn)景和目標(biāo)，將其分為兩個大方向：高質(zhì)量的語音合成以及高效率的語音合成。

在高質(zhì)量的語音合成方面，包括以下研究課題：更加強大的生成模型，更好的面向文本和語音的表征學(xué)習(xí)，魯棒的語音合成，富有表現(xiàn)力/可控/風(fēng)格可遷移的語音合成，更符合人類表達(dá)風(fēng)格的語音合成。在更高效的語音合成方面，包括在數(shù)據(jù)、模型參數(shù)、計算等方面設(shè)計更高效、利用資源更少的語音合成系統(tǒng)。

研究員們希望這篇綜述論文能對語音合成領(lǐng)域的相關(guān)工作人員提供有價值的參考，也希望這個領(lǐng)域的同行能提供意見和建議，一起共同維護、更新這篇綜述論文。歡迎將反饋提交到 GitHub 頁面 https://github.com/tts-tutorial/survey?或者發(fā)郵件至 xuta@microsoft.com。

相關(guān)鏈接：

https://www.microsoft.com/en-us/research/project/text-to-speech/

https://speechresearch.github.io/

https://www.microsoft.com/en-us/research/people/xuta/

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

總結(jié)

以上是生活随笔為你收集整理的系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：蚊子怎么杀
下一篇：对话系统有哪些最新进展？这17篇EMNL