當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2022年1~8月语音合成（TTS)和语音识别(ASR)论文月报

發布時間：2024/1/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 2022年1~8月语音合成（TTS)和语音识别(ASR)论文月报小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文統計每月更新一次，主要跟蹤語音合成和語音識別的發展狀況(很多文章都是在會議后才發出，但不影響統計。統計過程難免存在疏漏，因此統計結果僅供參考。所有文章語音合成領域統計列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。開源語音數據查詢 http://yqli.tech/page/data.html。

如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。讀者有什么建議可以直接給我發消息，我將不斷修改該統計。如有轉載，請注明出處。歡迎關注微信公眾號：低調奮進。

文章統計excel?https://docs.google.com/spreadsheets/d/11YYOg6i6UXw19_g1JRaXGNhvt1zhG24RgOXCzZlqZGE/edit?usp=sharing?

（8月份的文章很少，不知道是系統的問題還是這個月的文章本來就少）

一語音合成篇

表一給出具體分類說明。2022年8月的語音合成相關的文章有18篇，相比7月份有所減少（詳情見圖1），同時也比去年的8月有所減少。表二和圖2是語音合成的具體方向文章的情況。本月的文章在聲學模型、歌唱和聲碼器較多一些。

表一? 語音合成分類說明

分類	說明
前端	多音字，韻律，g2p等等。
聲學模型	語言特征轉聲學特征，attention工作，多說話人以及雙重學習
聲碼器	波形生成
個性化	少數據，臟數據應用等自適應
多語言和多說話人	多語言模型、多說話人模型
歌唱合成	歌唱和音樂合成
情感	風格和情感
多模態	主要搜集talking head文章
聲音轉換	基于GAN方案和特征解耦方案
S2S	?speech-to-speech
其它	基于EEG合成，開源數據，MOS評測以及語音合成的應用

圖1?語音合成論文總數

表二??語音合成論文分布情況

	1月	2月	3月	4月	5月	6月	7月	8月
前端	2	0	3	0	0	2	2	0
聲學模型	4	5	17	8	2	7	11	3
聲碼器	1	5	7	5	3	4	1	4
個性化	1	2	4	3	3	1	1	0
多語言	1	1	0	3	0	5	1	0
歌唱合成	5	3	5	2	2	3	2	5
情感風格	2	2	1	3	2	6	4	2
多模態	4	3	2	5	3	3	3	1
聲音轉換	4	2	11	3	2	6	5	2
s2s	1	0	2	1	2	0	0	0
其它	2	0	4	12	3	6	3	1

圖2?語音合成論文分布情況柱狀圖

語音合成的文章列表請訪問http://yqli.tech/page/tts_paper.html

2022.08月份的文章

二?語音識別篇

語音識別的文章分類參照表三說明，方向speech translation和multimodal在前幾個月沒有統計，因此先不放進圖表中。圖3是語音識別文章總數，本月有22篇，斷崖式下跌（為確保搜索沒有遺漏，搜了兩遍，不知道是否系統出問題，相關文章很少）。語音識別的研究方向具體情況參見表4和圖4。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表三? 語音識別分類說明

分類	說明
general	包括傳統、混合語音識別，以及對asr的優化
ctc	ctc優化
rnn-t	rnn-t的優化
aed	aed優化
dataset	開源數據庫
data aug	數據增廣
lm	語言模型研究
multilingual	多語音系統以及code-switch
personal	少數據量自適應以及個性化ASR
rescoring	多種模型聯合打分
unsupervised	無監督或者自監督學習
accent?,dialect	口音和方言
other	其它方向研究，包括系統評價標準等等
robust	魯棒性
speaker diarization	speaker diarization
multichannel	多通道
speech translation	語音翻譯
multi-modal	多模態

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖3 ?語音識別文章數量統計（單位：篇）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表4?語音識別研究方向分布情況

	1月	2月	3月	4月	5月	6月	7月	8月
general	12	10	13	9	6	7	7	2
ctc	1	0	2	5	1	1	0	0
rnn-t	3	1	2	3	0	2	2	2
aed	1	1	1	1	0	1	0	0
dataset	3	0	3	2	1	4	2	0
data augmentation	1	1	1	2	2	0	2	0
lm	2	2	4	3	0	3	1	1
multilingual	2	1	2	1	2	2	2	2
personal \| adaptation	0	7	3	1	2	2	0	0
rescoring	1	1	2	0	0	2	0	0
unsupervised	2	3	17	19	7	9	6	2
accent	1	0	0	2	2	0	0	1
multichannel	0	4	1	1	0	0	0	0
robust	0	0	5	2	2	1	3	1
other	6	13	22	13	9	10	19	7
speaker diarization	0	3	4	5	2	2	4	3
speech translation	-	-	-	-	6	4	1	1
multimodal	-	-	-	-	3	5	3	0

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?圖4 語音識別研究方向柱狀圖

語音識別的文章列表請訪問http://yqli.tech/page/asr_paper.html

2022.08月份語音識別具體文章

總結

以上是生活随笔為你收集整理的2022年1~8月语音合成（TTS)和语音识别(ASR)论文月报的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。