EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!
文 | 小軼(yì)
背景
今天上午十點剛剛頒布的EMNLP 2020最佳論文,獲獎者是來自UCBerkeley團隊的這篇Digital Voicing of Silent Speech。
刷了那么多NLP論文,各種pretraining、BERT、XXX-former...是不是都快刷出審美疲勞了?今年的EMNLP best paper絕對耳目一新!!工作研究了一個極具潛在社會影響力的新任務:Silent Speech Voicing——通過肌電傳感器,把無聲的說話動作轉化為電子語音。如果該技術得以實現,即使不發生聲帶振動,只要做出相應的發聲動作,即迅速轉換為語音。想象一下,或許未來有一天,只要動動嘴,都不用發出聲音,就能和人打電話了!
該技術可能的應用場景非常廣泛,包括:
過分嘈雜的環境(普通的有聲電話難以識別清楚)
必須要保持安靜的嚴肅場合 (開會摸魚新思路)
最最重要的是,那些不幸喪失發聲能力的人們也將能夠與身邊人流暢地交流啦!
這個任務顯然具有非常大的前景和潛在社會影響。其實近十年也有一些少量工作嘗試做類似的事情,但效果都非常不好,讓人覺得這事兒可能目前的技術一時半會還實現不了。但emnlp這篇大大提升了實驗效果——在一組主要實驗中,和之前最強的baseline相比,誤差率直降94%。總之,很大程度上證明這個方向還是achievable,大家努努力說不定能成的那種!并且,他們也同時發布了一個針對該任務的大規模數據集。鑒于其深遠的應用前景,可以想見之后應該會有大量工作繼續follow。而這篇best paper也將成為該任務的開山之作。
論文題目:
Digital Voicing of Silent Speech
論文鏈接:
https://arxiv.org/pdf/2010.02960.pdf
開源代碼:
https://github.com/dgaddy/silent_speech
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【1119】 下載論文PDF~
方法
接下來,我們簡單看一下實現過程~首先第一步是傳感器信號采集,需要在嘴和頸脖周圍貼上八個傳感器,像這樣:
然后就會得到八串肌電圖信號,像這樣:
接下來的任務,就是如何基于肌電圖信號,識別出具體的語言信息了。信號轉文字的相關研究其實已經有很多了,emnlp這篇的主要貢獻其實并不在這一部分,而在于他們發現、并解決了之前研究中的一個問題:前人采用的訓練數據都是人在“出聲”說話時的肌電信號。但這篇工作則證明,要實現silent speech voicing,必須要用人在“不發聲”說話時的肌電信號,因為這兩種場景下人的肌肉運作方式是不一樣的。motivation很顯然,但事實上實現起來是有困難的。因為對于無聲的信號來說,是沒有對應的語音信號的,很難直接標記出某一段信號對應了哪個單詞。他們的解決方法是:對同一段文字,先采集一遍人們說這段話時的有聲信號,再采集一遍無聲信號。然后讓模型在兩種信號上都進行訓練。兩種數據在時間上并不是完全對齊的,所以該模型最核心的一個模塊,就是實現兩種信號的對齊。
實驗
實驗中,評測的方式就是請志愿者(或者用語音識別模型)聽寫轉換出來的電子語音。評測指標是word error rate (WER),直觀來說就是和原文的最短編輯距離除以文本長度:
(向右滑動查看完整公式)
主要測試了兩種設定下的性能表現(兩者主要區別其實就是前者包含的詞匯量少很多):
Closed Vocabulary Condition
Open Vocabulary Condition
測試結果如下表。可以看到,在Closed Vocabulary場景下,WER僅有3.6%,比baseline的誤差率減少了94%。在Open Vocabulary場景下,也比baseline降低了20%左右的WER。
小結
今年emnlp的best paper頒給了一個非典型的NLP任務。但確實是很酷的工作!是那種會真正產生社會影響的一類研究~所以說,NLP不止是“萬物皆可BERT”,NLP的未來也不只有瘋狂pretraining。還有很多有意義的方向值得我們去探索呢!
P.S 從今天起,小軼我筆名改做“小軼(yì)”啦。不是小秩(zhì)。也不是小鐵(tiě)哦!
萌屋作者:小軼(yì)
剛剛本科畢業于北大計算機系的美少女學霸!目前在騰訊天衍實驗室做NLP研究實習生。原計劃是要赴美國就讀CMU的王牌碩士項目MCDS,不過因為疫情正處于gap year,于是就來和小夕愉快地玩耍啦~文風溫柔優雅,偶爾暴露呆萌屬性,文如其人哦!知乎ID:小軼。
作品推薦:
1.谷歌重磅:可以優化自己的優化器!手動調參或將成為歷史!?
2.有錢可以多任性?OpenAI提出人肉模型訓練,文本摘要全面超越人類表現!
3.ACL20 Best Paper揭曉!NLP模型評價體系或將迎來重大轉折
4.Attention模型:我的注意力跟你們人類不一樣
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結
以上是生活随笔為你收集整理的EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Git使用的奇技淫巧
- 下一篇: 开源词法分析工具LAC重大升级!打造属于