dynamo怎样由线生成体_语音生成效果评价不再逐句进行:谷歌提出长文本语音生成评价新系统...
選自googleblog,作者:Tom Kenter,機(jī)器之心編譯,參與:高璇。
自動生成的語音無處不在,從駕駛中的人聲導(dǎo)航,到手機(jī)上的虛擬助手,還有家中的智能揚聲器設(shè)備。雖然為了使生成語音更加逼真而進(jìn)行了大量研究與實驗,例如為低資源語言(low-resource language,LRL)生成語音以及使用 Tacotron 2 創(chuàng)建模仿人類的語音,但如何評價生成的語音呢?找出答案的最好方法是詢問那些能分辨出聲音是否「以假亂真」的專業(yè)人士。
在語音生成領(lǐng)域,受試者常被要求聽生成語音的樣本并對其進(jìn)行評分。然而截止目前,對生成語音效果的評價一直是基于單獨的語句。但人們往往更想知道某一段生成語音的效果,例如新聞報道中的段落或一段對話。這就有趣了,因為有很多方法可以用來評價以自然語序呈現(xiàn)的句子,并且令人驚訝的是,這些不同的方法之間尚未進(jìn)行過嚴(yán)格的比較。這反過來又會阻礙依賴生成語音的產(chǎn)品的研究進(jìn)展。
為了應(yīng)對這一挑戰(zhàn),谷歌在 SSW10 上發(fā)表了名為《Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs》的論文。研究人員在論文中對比了評價多行文本生成語音的幾種方法。研究發(fā)現(xiàn),當(dāng)一個句子被評定為包含多個句子的長文本的一部分時,音頻樣本呈現(xiàn)給評價者的方式會對評價結(jié)果產(chǎn)生影響。例如,當(dāng)句子單獨出現(xiàn)時,人們給出的評級通常與他們在某些情境下聽同一句話時所給出的評級大不相同(上下文不需要進(jìn)行評級)。
論文地址:https://ai.google/research/pubs/pub48349
評價自動生成的語音
確定語音信號質(zhì)量的通常做法是,讓幾個評價者對某一樣本給出 1 到 5 的評級。該樣本既可以是自動生成的,也可以是自然語音(即真人大聲念出的句子)。對評價特定語音樣本的所有人員給出的分?jǐn)?shù)求平均值,然后得出 MOS。
截止目前,MOS 評級通常是逐句進(jìn)行的,即評價者在聽取獨立的句子后給出他們的意見。研究人員提出以三種不同的方式將語音樣本呈現(xiàn)給評價者——有上下文和無上下文——證明每種方法都會產(chǎn)生不同的結(jié)果。
- 第一種方法是單獨呈現(xiàn)句子,這是該領(lǐng)域通常采用的默認(rèn)方法;
- 另一種方法是為句子提供完整的上下文,即包括句子所屬的整個段落,并對整體進(jìn)行評級;
- 最后一種方法是提供一個上下文激勵對。此時不提供完整的上下文,僅提供部分上下文,例如來自最初段落的前一句話。
有趣的是,即使在評價自然語音時,這三種不同的語音呈現(xiàn)方法也會產(chǎn)生不同的結(jié)果。
具體結(jié)果如下圖所示,三種顏色分別代表使用三種不同方法評價自然語音樣本的 MOS 分?jǐn)?shù)。盡管接受評級的句子相同,但由于上下文的不同,相應(yīng)得分也有所不同。
新聞報道 MOS 結(jié)果來自新聞數(shù)據(jù)集中的自然語音。雖然差異不大,但不同條件下的差異還是很重要(系數(shù)α= 0.05 的雙尾 t 檢驗)。
從上圖可以看出,即使是錄制的真實人聲,評價者也很少給出最高分(5 分)。然而,這是在句子評價研究中會出現(xiàn)的典型結(jié)果,這可能與一種常見的行為模式有關(guān),即無論任務(wù)或設(shè)置怎樣,人們往往避免給出極端評價。
在評價生成語音時,差異更明顯。
同一新聞報道數(shù)據(jù)集的生成語音 MOS 結(jié)果。除非另有說明,否則以上均為生成語音。
為了查看上下文的呈現(xiàn)方式是否對評價結(jié)果產(chǎn)生影響,研究人員嘗試了幾種不同的方法:在要評價的句子前添加一至兩個作為生成或真實語音的句子。當(dāng)添加上下文時,分?jǐn)?shù)變得更高(上圖左側(cè)四個藍(lán)色條);若呈現(xiàn)的上下文是真實語音,則分?jǐn)?shù)下降(上圖最右側(cè)藍(lán)色條)。研究人員假設(shè)這與錨定效應(yīng)(anchoring effect)有關(guān)——如果上下文非常好(真實語音),則生成語音相比之下就不太自然。
預(yù)測段落得分
當(dāng)播放完整的生成語音段落(上圖黃色條)時,會被認(rèn)為較其他語音設(shè)定不自然。研究人員最初假設(shè)存在一個最薄弱的關(guān)聯(lián)論證——評級結(jié)果可能與該段中最差的句子保持一致。如果是這種情況,應(yīng)該很容易通過參照其中單個句子的評級來預(yù)測整個段落的評級,也許只采用最小值即可得到段落評級。然而事實證明,這種方法行不通。
最薄弱關(guān)聯(lián)假設(shè)的失敗可能是因為使用這種簡單方法難以梳理更細(xì)節(jié)的因素。為了驗證這一點,研究人員還訓(xùn)練了機(jī)器學(xué)習(xí)算法來基于單個句子預(yù)測段落得分。但是,這種方法也無法成功預(yù)測段落得分。
結(jié)論
當(dāng)涉及多個句子時,生成語音的評價并不容易。單獨評定句子的傳統(tǒng)方法并不能給出全面的解讀,并且在提供上下文的情況下評價者應(yīng)注意錨定效應(yīng)。因此,對完整段落進(jìn)行評價可能是最保守的方法。研究人員希望他們的研究結(jié)果有助于推進(jìn)長篇語音生成領(lǐng)域未來的研究,例如有聲讀物和會話智能體。
原文鏈接:https://ai.googleblog.com/2019/09/assessing-quality-of-long-form.html
總結(jié)
以上是生活随笔為你收集整理的dynamo怎样由线生成体_语音生成效果评价不再逐句进行:谷歌提出长文本语音生成评价新系统...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ASP.NET 3.5 Extensio
- 下一篇: 【项目实践】【01】发货管理系统 SPS