ISCSLP 2022 | NPU-ASLP实验室8篇论文被录用
作為語音處理技術領域的旗艦國際會議,ISCSLP2022(International Symposium on Chinese Spoken Language Processing)將于12月11-14日在新加坡舉辦。
西工大音頻語音與語言處理研究組(ASLP@NPU)本屆會議將攜合作伙伴宣讀論文8篇,涉及智能語音處理領域的眾多研究方向,包括語音識別、說話人日志、語音合成、語音轉換等。論文的合作單位包括:騰訊、美團、傳音控股、馬上金融等。此外在本屆會議上,實驗室聯合希爾貝殼、天津大學、南洋理工大學、WeNet開源社區、理想汽車等多家單位成功舉辦智能座艙語音識別挑戰賽(ICSRC)。值得一提的是,實驗室參賽隊獲得中英混語音識別挑戰賽(CSASR)第二名,同時實驗室與傳音控股合作獲得對話短語音說話人日志挑戰賽(CSSD)第三名的優異成績。以下是本屆會議發表論文的相關信息。
#1
AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents
作者列表:張雍茂,王智超,楊培基,孫閎紳,王智圣,謝磊
合作單位:騰訊IEG
論文摘要:從眾包數據中學習口音來讓目標說話人帶有口音是一種可行的構建帶口音語音合成系統的途徑。為了實現這個目的,有兩個具有挑戰性的問題需要解決。第一,如果直接使用質量較低的眾包口音數據和目標說話人的高質量非口音數據來訓練口音遷移模型會導致合成質量明顯低于目標說話人的原始數據。為了緩解這個問題,我們采用以神經網絡瓶頸特征(BN)為中間特征的語音合成方案,將語音合成的聲學模型分為Text-to-BN(T2BN)和BN-to-Mel(BN2Mel)來分別建模口音和目標說話人音色,同時基于神經網絡提取的BN具有噪聲魯棒性。第二,如果直接使用眾包數據訓練上述兩段式模型將會導致目標說話人的發音韻律較差,這是由于眾包數據都是由非專業播音的普通人提供的。為了解決這個問題,我們將兩段式的模型更新為三段式模型,使用目標說話人的高質量數據訓練上述T2BN和BN2Mel模塊,并在兩個模塊中間加入一個BN-to-BN(BN2BN)模塊來進行口音遷移任務。我們通過數據擴充的方式生成了非口音的BN和帶有口音的BN平行數據來訓練BN2BN模塊。最終,我們提出的三段式模型實現了合成目標說話人的帶口音的語音,因為合成語音的韻律是從專業播音的目標說話人數據中學習的,所以最終語音的發音韻律較好。我們提出的AccentSpeech的效果在中文口音遷移任務上得到了驗證。
論文Arxiv網址:
https://arxiv.org/abs/2210.17305
#2
End-to-End Voice Conversion with Information Perturbation
作者列表:謝啟聰,陽珊,雷怡,謝磊,蘇丹
合作單位:騰訊TEG
論文摘要:語音轉換的目標是將源語音中的音色轉換目標說話人音色,同時保持源語音中的內容信息不變。然而,目前的方法在說話人相似度和韻律方面有所欠缺,而且由于聲學模型和聲碼器之間的特征不匹配的問題,導致了的轉換語音質量的下降。本文利用信息擾動的方式,提出一種完全端到端的方法來進行高質量的語音轉換。首先采用信息擾動來去除源語音中與說話人相關的信息,以解耦說話人的音色信息和語言內容信息。為了更好地將源語音的韻律轉移到目標語音上,本文引入了說話人相關的韻律編碼器,來保持和源說話人的一致的韻律模式。通過直接對語音樣點進行建模提升音質,避免了借助梅爾譜的中間表征而帶來的聲學模型和聲碼器之間的特征不匹配的問題。最后,通過連續的說話人空間建模,使模型能夠實現Zero Shot的語音轉換。實驗結果表明,所提出的端到端方法在可懂度、自然度和說話人相似度方面明顯優于其他對比模型。
論文Arxiv網址:
https://arxiv.org/abs/2206.07569
#3
Multi-speaker Multi-style Text-to-speech Synthesis with Single-speaker Single-style Training Data Scenarios
作者列表:謝啟聰,李濤,王新升,王智超,謝磊,虞國橋,萬廣魯
合作單位:美團
論文摘要:語音合成的風格遷移主要讓說話人合成該說話人本不具有的風格的語音,比如,讓普通說話人合成故事、新聞、廣播、朗讀等等風格語音。為了使合成系統能夠學習風格信息,以往的研究所使用的語料是一位說話人要具備多種風格的語料,這將對說話人提出較高的要求。本文為了解決以上的問題,設計了單人單風格場景下的風格遷移方案,訓練語料的每位說話人只要具備一種風格即可。同時本文對音素級別的細粒度韻律進行控制,從而更容易實現對風格強度進行控制。
論文Arxiv網址:
https://arxiv.org/abs/2112.12743
#4
Robust MelGAN: A robust universal neural vocoder for high-fidelity TTS
作者列表:宋堃,從堅,王新升,張雍茂,謝磊,蔣寧,吳海英
合作單位:馬上金融
論文摘要:在當前主流的兩段式TTS框架中,理想情況是擁有一個通用聲碼器,其只需要訓練一次而不需要對目標數據進行微調,并對聲學模型生成的mel譜具備魯棒性。基于此目的,我們在multi-band MelGAN的基礎上作出改進,提出Robust MelGAN模型,緩解multi-band MelGAN在對接聲學模型生成的Mel譜而產生的電音問題,并提高了其泛化能力。首先,我們在生成器中引入了細粒度的網絡dropout策略,通過將語音信號中的周期和非周期成分分離并對非周期成分施加網絡dropout策略,避免電音的同時保證了穩定的音色相似度。為了提高模型的泛化能力,我們使用了多種數據增強方法以擴充判別器中的虛假數據,包括諧波偏移、諧波噪聲和相位噪聲。實驗表明,Robust MelGAN作為通用聲碼器,可以適配基于多種數據訓練的聲學模型,保持了良好的音質。
論文Arxiv網址:
https://arxiv.org/abs/2210.17349
#5
AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation
作者列表:宋堃,薛鶴洋,王新升,從堅,張雍茂,謝磊,楊兵,張雄,蘇丹
合作單位:騰訊CSIG
論文摘要:說話人自適應任務旨在預訓練的TTS模型上使用少量的目標說話人數據進行自適應而獲得目標說話人的TTS系統。在這一任務上已經有很多相關工作,但是很少有針對于低計算資源場景的輕量化說話人自適應模型。本文提出一種基于VITS模型的輕量化說話人自適應模型AdaVITS。為了有效的減少VITS模型的參數和計算量,我們首先提出了一種基于逆傅立葉變換 (iSTFT) 的解碼器以替代原始結構中計算量占比較大的上采樣網絡解碼器;其次我們引入NanoFlow中的共享概率估計流 (flow) 模塊替代原始的流模塊,從而減少參數量;另外我們在文本編碼器中引入線性注意力機制以代替原始的點積注意力從而降低計算量。為了提高VITS模型的穩定性,我們使用PPG特征作為中間語言學表征監督文本到譜特征的學習過程。實驗表明,在說話人自適應任務上,AdaVITS可以生成穩定自然的語音,并且只有8.97M 的模型參數量和 0.72 GFlops的計算量。
論文Arxiv網址:
https://arxiv.org/abs/2206.00208
#6
The NPU-ASLP System for The ISCSLP 2022 Magichub Code-Swiching ASR Challenge
作者列表:梁宇顥,陳培坤,俞帆,朱新發,徐天翼,謝磊
論文摘要:本文描述了西工大ASLP實驗室在ISCSLP2022中英混語音識別挑戰賽上提交的系統方案。在這次競賽中,我們首先探索了bi-encoder,language-aware encoder(LAE)與mixture of experts(MoE)等多種ASR模型結構以及訓練策略。為了增強系統的語言建模能力,我們進一步嘗試了internal language model (ILM)與long context language model (LCLM)。此外,我們使用了多種數據擴充方式包括變速、變調、音頻編解碼、語音合成來克服競賽數據稀缺的問題。最后我們使用ROVER的方式融合了不同模型的識別結果。我們提交的系統在測試集上排名第二,實現了16.87%的MER。
論文Arxiv網址:
https://arxiv.org/abs/2210.14448
#7
TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge
作者列表:龐博文,趙歡,張高升,楊嘯悅,孫楊,張麗,王晴,謝磊
合作單位:傳音控股
論文摘要:本文描述了西工大和傳音控股合作隊伍在ISCSLP 2022會話短句說話人日志(CSSD)競賽中使用的方案。該競賽重點關注短句對話場景,并采用了一種新的評價指標CDER。在這次競賽中,我們探索了三種經典的說話人日志方案,分別是基于譜聚類(SC)系統、基于目標說話人檢測(TS-VAD)的系統以及端到端系統。我們的主要結論總結如下。首先,在新的CDER指標下,基于譜聚類的傳統方法比其他兩種方法效果更好。其次,對于所有三種類型的說話人日志方案,調整超參對于CDER指標至關重要。比如當分割子段的長度設置得更長時,CDER會變得更小。最后,通過DOVER-LAP的多系統融合并沒有取得更理想的結果。我們提交的系統最終在競賽結果中排名第三。
論文Arxiv網址:
https://arxiv.org/abs/2210.14653
#8
The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC):Dataset, Tracks, Baseline and Results
作者列表:張奧, 俞帆, 黃凱勛,謝磊, 王龍標, Eng Siong Chng, 卜輝, 張彬彬, 陳偉, 徐昕
合作單位:天津大學,南洋理工大學,希爾貝克,理想汽車,WeNet社區
論文摘要:本文總結了ISCSLP2022車載語音識別挑戰賽(ICSRC)的產出。我們首先闡述了這個競賽的必要性并介紹競賽數據集。本次競賽的數據集在新能源汽車上錄制,覆蓋智能座艙的聲學場景和語音交互的語言特點。之后,我們介紹本次競賽的賽道設置,本次競賽分為模型大小受限和不受限兩個賽道,分別對應車載端側和云側語音識別場景。最后我們總結競賽的結果和提交系統所采用的主要方法。
論文Arxiv網址:
https://arxiv.org/abs/2211.01585
總結
以上是生活随笔為你收集整理的ISCSLP 2022 | NPU-ASLP实验室8篇论文被录用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云部分题
- 下一篇: 2020年了,跨境电商收款有哪几种方式?