ISCSLP 2022 | NPU-ASLP实验室8篇论文被录用
作為語音處理技術(shù)領(lǐng)域的旗艦國際會(huì)議,ISCSLP2022(International Symposium on Chinese Spoken Language Processing)將于12月11-14日在新加坡舉辦。
西工大音頻語音與語言處理研究組(ASLP@NPU)本屆會(huì)議將攜合作伙伴宣讀論文8篇,涉及智能語音處理領(lǐng)域的眾多研究方向,包括語音識(shí)別、說話人日志、語音合成、語音轉(zhuǎn)換等。論文的合作單位包括:騰訊、美團(tuán)、傳音控股、馬上金融等。此外在本屆會(huì)議上,實(shí)驗(yàn)室聯(lián)合希爾貝殼、天津大學(xué)、南洋理工大學(xué)、WeNet開源社區(qū)、理想汽車等多家單位成功舉辦智能座艙語音識(shí)別挑戰(zhàn)賽(ICSRC)。值得一提的是,實(shí)驗(yàn)室參賽隊(duì)獲得中英混語音識(shí)別挑戰(zhàn)賽(CSASR)第二名,同時(shí)實(shí)驗(yàn)室與傳音控股合作獲得對話短語音說話人日志挑戰(zhàn)賽(CSSD)第三名的優(yōu)異成績。以下是本屆會(huì)議發(fā)表論文的相關(guān)信息。
#1
AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents
作者列表:張雍茂,王智超,楊培基,孫閎紳,王智圣,謝磊
合作單位:騰訊IEG
論文摘要:從眾包數(shù)據(jù)中學(xué)習(xí)口音來讓目標(biāo)說話人帶有口音是一種可行的構(gòu)建帶口音語音合成系統(tǒng)的途徑。為了實(shí)現(xiàn)這個(gè)目的,有兩個(gè)具有挑戰(zhàn)性的問題需要解決。第一,如果直接使用質(zhì)量較低的眾包口音數(shù)據(jù)和目標(biāo)說話人的高質(zhì)量非口音數(shù)據(jù)來訓(xùn)練口音遷移模型會(huì)導(dǎo)致合成質(zhì)量明顯低于目標(biāo)說話人的原始數(shù)據(jù)。為了緩解這個(gè)問題,我們采用以神經(jīng)網(wǎng)絡(luò)瓶頸特征(BN)為中間特征的語音合成方案,將語音合成的聲學(xué)模型分為Text-to-BN(T2BN)和BN-to-Mel(BN2Mel)來分別建模口音和目標(biāo)說話人音色,同時(shí)基于神經(jīng)網(wǎng)絡(luò)提取的BN具有噪聲魯棒性。第二,如果直接使用眾包數(shù)據(jù)訓(xùn)練上述兩段式模型將會(huì)導(dǎo)致目標(biāo)說話人的發(fā)音韻律較差,這是由于眾包數(shù)據(jù)都是由非專業(yè)播音的普通人提供的。為了解決這個(gè)問題,我們將兩段式的模型更新為三段式模型,使用目標(biāo)說話人的高質(zhì)量數(shù)據(jù)訓(xùn)練上述T2BN和BN2Mel模塊,并在兩個(gè)模塊中間加入一個(gè)BN-to-BN(BN2BN)模塊來進(jìn)行口音遷移任務(wù)。我們通過數(shù)據(jù)擴(kuò)充的方式生成了非口音的BN和帶有口音的BN平行數(shù)據(jù)來訓(xùn)練BN2BN模塊。最終,我們提出的三段式模型實(shí)現(xiàn)了合成目標(biāo)說話人的帶口音的語音,因?yàn)楹铣烧Z音的韻律是從專業(yè)播音的目標(biāo)說話人數(shù)據(jù)中學(xué)習(xí)的,所以最終語音的發(fā)音韻律較好。我們提出的AccentSpeech的效果在中文口音遷移任務(wù)上得到了驗(yàn)證。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2210.17305
#2
End-to-End Voice Conversion with Information Perturbation
作者列表:謝啟聰,陽珊,雷怡,謝磊,蘇丹
合作單位:騰訊TEG
論文摘要:語音轉(zhuǎn)換的目標(biāo)是將源語音中的音色轉(zhuǎn)換目標(biāo)說話人音色,同時(shí)保持源語音中的內(nèi)容信息不變。然而,目前的方法在說話人相似度和韻律方面有所欠缺,而且由于聲學(xué)模型和聲碼器之間的特征不匹配的問題,導(dǎo)致了的轉(zhuǎn)換語音質(zhì)量的下降。本文利用信息擾動(dòng)的方式,提出一種完全端到端的方法來進(jìn)行高質(zhì)量的語音轉(zhuǎn)換。首先采用信息擾動(dòng)來去除源語音中與說話人相關(guān)的信息,以解耦說話人的音色信息和語言內(nèi)容信息。為了更好地將源語音的韻律轉(zhuǎn)移到目標(biāo)語音上,本文引入了說話人相關(guān)的韻律編碼器,來保持和源說話人的一致的韻律模式。通過直接對語音樣點(diǎn)進(jìn)行建模提升音質(zhì),避免了借助梅爾譜的中間表征而帶來的聲學(xué)模型和聲碼器之間的特征不匹配的問題。最后,通過連續(xù)的說話人空間建模,使模型能夠?qū)崿F(xiàn)Zero Shot的語音轉(zhuǎn)換。實(shí)驗(yàn)結(jié)果表明,所提出的端到端方法在可懂度、自然度和說話人相似度方面明顯優(yōu)于其他對比模型。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2206.07569
#3
Multi-speaker Multi-style Text-to-speech Synthesis with Single-speaker Single-style Training Data Scenarios
作者列表:謝啟聰,李濤,王新升,王智超,謝磊,虞國橋,萬廣魯
合作單位:美團(tuán)
論文摘要:語音合成的風(fēng)格遷移主要讓說話人合成該說話人本不具有的風(fēng)格的語音,比如,讓普通說話人合成故事、新聞、廣播、朗讀等等風(fēng)格語音。為了使合成系統(tǒng)能夠?qū)W習(xí)風(fēng)格信息,以往的研究所使用的語料是一位說話人要具備多種風(fēng)格的語料,這將對說話人提出較高的要求。本文為了解決以上的問題,設(shè)計(jì)了單人單風(fēng)格場景下的風(fēng)格遷移方案,訓(xùn)練語料的每位說話人只要具備一種風(fēng)格即可。同時(shí)本文對音素級別的細(xì)粒度韻律進(jìn)行控制,從而更容易實(shí)現(xiàn)對風(fēng)格強(qiáng)度進(jìn)行控制。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2112.12743
#4
Robust MelGAN: A robust universal neural vocoder for high-fidelity TTS
作者列表:宋堃,從堅(jiān),王新升,張雍茂,謝磊,蔣寧,吳海英
合作單位:馬上金融
論文摘要:在當(dāng)前主流的兩段式TTS框架中,理想情況是擁有一個(gè)通用聲碼器,其只需要訓(xùn)練一次而不需要對目標(biāo)數(shù)據(jù)進(jìn)行微調(diào),并對聲學(xué)模型生成的mel譜具備魯棒性。基于此目的,我們在multi-band MelGAN的基礎(chǔ)上作出改進(jìn),提出Robust MelGAN模型,緩解multi-band MelGAN在對接聲學(xué)模型生成的Mel譜而產(chǎn)生的電音問題,并提高了其泛化能力。首先,我們在生成器中引入了細(xì)粒度的網(wǎng)絡(luò)dropout策略,通過將語音信號中的周期和非周期成分分離并對非周期成分施加網(wǎng)絡(luò)dropout策略,避免電音的同時(shí)保證了穩(wěn)定的音色相似度。為了提高模型的泛化能力,我們使用了多種數(shù)據(jù)增強(qiáng)方法以擴(kuò)充判別器中的虛假數(shù)據(jù),包括諧波偏移、諧波噪聲和相位噪聲。實(shí)驗(yàn)表明,Robust MelGAN作為通用聲碼器,可以適配基于多種數(shù)據(jù)訓(xùn)練的聲學(xué)模型,保持了良好的音質(zhì)。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2210.17349
#5
AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation
作者列表:宋堃,薛鶴洋,王新升,從堅(jiān),張雍茂,謝磊,楊兵,張雄,蘇丹
合作單位:騰訊CSIG
論文摘要:說話人自適應(yīng)任務(wù)旨在預(yù)訓(xùn)練的TTS模型上使用少量的目標(biāo)說話人數(shù)據(jù)進(jìn)行自適應(yīng)而獲得目標(biāo)說話人的TTS系統(tǒng)。在這一任務(wù)上已經(jīng)有很多相關(guān)工作,但是很少有針對于低計(jì)算資源場景的輕量化說話人自適應(yīng)模型。本文提出一種基于VITS模型的輕量化說話人自適應(yīng)模型AdaVITS。為了有效的減少VITS模型的參數(shù)和計(jì)算量,我們首先提出了一種基于逆傅立葉變換 (iSTFT) 的解碼器以替代原始結(jié)構(gòu)中計(jì)算量占比較大的上采樣網(wǎng)絡(luò)解碼器;其次我們引入NanoFlow中的共享概率估計(jì)流 (flow) 模塊替代原始的流模塊,從而減少參數(shù)量;另外我們在文本編碼器中引入線性注意力機(jī)制以代替原始的點(diǎn)積注意力從而降低計(jì)算量。為了提高VITS模型的穩(wěn)定性,我們使用PPG特征作為中間語言學(xué)表征監(jiān)督文本到譜特征的學(xué)習(xí)過程。實(shí)驗(yàn)表明,在說話人自適應(yīng)任務(wù)上,AdaVITS可以生成穩(wěn)定自然的語音,并且只有8.97M 的模型參數(shù)量和 0.72 GFlops的計(jì)算量。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2206.00208
#6
The NPU-ASLP System for The ISCSLP 2022 Magichub Code-Swiching ASR Challenge
作者列表:梁宇顥,陳培坤,俞帆,朱新發(fā),徐天翼,謝磊
論文摘要:本文描述了西工大ASLP實(shí)驗(yàn)室在ISCSLP2022中英混語音識(shí)別挑戰(zhàn)賽上提交的系統(tǒng)方案。在這次競賽中,我們首先探索了bi-encoder,language-aware encoder(LAE)與mixture of experts(MoE)等多種ASR模型結(jié)構(gòu)以及訓(xùn)練策略。為了增強(qiáng)系統(tǒng)的語言建模能力,我們進(jìn)一步嘗試了internal language model (ILM)與long context language model (LCLM)。此外,我們使用了多種數(shù)據(jù)擴(kuò)充方式包括變速、變調(diào)、音頻編解碼、語音合成來克服競賽數(shù)據(jù)稀缺的問題。最后我們使用ROVER的方式融合了不同模型的識(shí)別結(jié)果。我們提交的系統(tǒng)在測試集上排名第二,實(shí)現(xiàn)了16.87%的MER。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2210.14448
#7
TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge
作者列表:龐博文,趙歡,張高升,楊嘯悅,孫楊,張麗,王晴,謝磊
合作單位:傳音控股
論文摘要:本文描述了西工大和傳音控股合作隊(duì)伍在ISCSLP 2022會(huì)話短句說話人日志(CSSD)競賽中使用的方案。該競賽重點(diǎn)關(guān)注短句對話場景,并采用了一種新的評價(jià)指標(biāo)CDER。在這次競賽中,我們探索了三種經(jīng)典的說話人日志方案,分別是基于譜聚類(SC)系統(tǒng)、基于目標(biāo)說話人檢測(TS-VAD)的系統(tǒng)以及端到端系統(tǒng)。我們的主要結(jié)論總結(jié)如下。首先,在新的CDER指標(biāo)下,基于譜聚類的傳統(tǒng)方法比其他兩種方法效果更好。其次,對于所有三種類型的說話人日志方案,調(diào)整超參對于CDER指標(biāo)至關(guān)重要。比如當(dāng)分割子段的長度設(shè)置得更長時(shí),CDER會(huì)變得更小。最后,通過DOVER-LAP的多系統(tǒng)融合并沒有取得更理想的結(jié)果。我們提交的系統(tǒng)最終在競賽結(jié)果中排名第三。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2210.14653
#8
The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC):Dataset, Tracks, Baseline and Results
作者列表:張奧, 俞帆, 黃凱勛,謝磊, 王龍標(biāo), Eng Siong Chng, 卜輝, 張彬彬, 陳偉, 徐昕
合作單位:天津大學(xué),南洋理工大學(xué),希爾貝克,理想汽車,WeNet社區(qū)
論文摘要:本文總結(jié)了ISCSLP2022車載語音識(shí)別挑戰(zhàn)賽(ICSRC)的產(chǎn)出。我們首先闡述了這個(gè)競賽的必要性并介紹競賽數(shù)據(jù)集。本次競賽的數(shù)據(jù)集在新能源汽車上錄制,覆蓋智能座艙的聲學(xué)場景和語音交互的語言特點(diǎn)。之后,我們介紹本次競賽的賽道設(shè)置,本次競賽分為模型大小受限和不受限兩個(gè)賽道,分別對應(yīng)車載端側(cè)和云側(cè)語音識(shí)別場景。最后我們總結(jié)競賽的結(jié)果和提交系統(tǒng)所采用的主要方法。
論文Arxiv網(wǎng)址:
https://arxiv.org/abs/2211.01585
總結(jié)
以上是生活随笔為你收集整理的ISCSLP 2022 | NPU-ASLP实验室8篇论文被录用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云部分题
- 下一篇: 2020年了,跨境电商收款有哪几种方式?