A flight (to Boston) to Denver - 基于转移的顺滑技术研究 | 论文访谈间 #22
「論文訪談間」是由 PaperWeekly 和中國中文信息學(xué)會(huì)青工委聯(lián)合發(fā)起的論文報(bào)道欄目,旨在讓國內(nèi)優(yōu)質(zhì)論文得到更多關(guān)注和認(rèn)可。?這是第 22?期「論文訪談間」
論文作者 |?王少磊,車萬翔,劉挺,張?jiān)?#xff0c;張梅山
(哈爾濱工業(yè)大學(xué),新加坡科技與設(shè)計(jì)大學(xué),黑龍江大學(xué))
特約記者 | Chloe(香港中文大學(xué))
聽幾條平時(shí)微信聊天發(fā)的語音,聽聽新聞上被采訪者的回答,或者看 YouTube 視頻的時(shí)候注意看自動(dòng)生成的字幕,你發(fā)現(xiàn)了什么?對的,到處有口誤!比人們以為的要多得多。口誤一般是這種情形:說了幾個(gè)詞發(fā)現(xiàn)說錯(cuò)了,接著說幾個(gè)語氣詞趁機(jī)想一下應(yīng)該怎么說,然后用正確的表達(dá)糾正回來;或者反應(yīng)迅速,說錯(cuò)后瞬間就立刻糾正。?
放在口語環(huán)境中,這不是什么事兒,聽眾幾乎注意不到,而且能理解想表達(dá)的正確含義是什么。但是一旦脫離口語環(huán)境,把語音轉(zhuǎn)成文本,就會(huì)增加人們的閱讀難度。
試試看把朋友發(fā)給你的一條 30 秒的微信語音轉(zhuǎn)成文字,要花更長時(shí)間才能理解吧。如果還要對文本進(jìn)行句法分析、機(jī)器翻譯、內(nèi)容摘要等后續(xù)工作,這種不流暢現(xiàn)象就是一個(gè)大問題、會(huì)造成嚴(yán)重干擾。因此使自動(dòng)語音識別得到的文本變得流暢易讀,對語音轉(zhuǎn)寫后處理格外重要。具體地說,就是要?jiǎng)h除其中的停頓詞、語氣詞、重復(fù)詞,我們稱之為“順滑”技術(shù)。?
來自哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的王少磊、車萬翔、劉挺,新加坡科技與設(shè)計(jì)大學(xué)的張?jiān)馈⒑邶埥髮W(xué)的張梅山在“Transition-Based Disfluency Detection using LSTMs”一文中研究了對文本的順滑處理技術(shù),該論文獲自然語言處理領(lǐng)域頂級國際會(huì)議 EMNLP 2017 錄用。
我們來簡單看一看這篇 paper:?
先看一個(gè)經(jīng)典的順滑標(biāo)注例子,請看圖1。
△?圖1:英文Switchboard語料庫里面標(biāo)注有不流暢信息的例子
RM(reparandum):被丟棄或者被后面的詞所糾正的詞組
(+):表示 reparandum 結(jié)束的中斷點(diǎn)
IM(interregnum):緊跟在中斷點(diǎn)后,可能出現(xiàn)的停頓、語氣詞等
RP(repair):糾正 reparandum 的詞組
研究大量順滑標(biāo)注例子后,作者發(fā)現(xiàn):?
1. RM 語塊時(shí)長時(shí)短(英文語料中最長的 RM 語塊有 15 個(gè)單詞!),RM 語塊出現(xiàn)位置不固定,可能存在嵌套結(jié)構(gòu)。因此,對長距離依賴現(xiàn)象進(jìn)行建模非常重要。?
2. RM 語塊和其后的 RP 語塊往往有相似性。比如圖 1 中的 RM 語塊“to Boston”和其后的 RP 語塊“to Denver”,發(fā)現(xiàn)它們第一個(gè)詞相同都是 to,而且詞性組合也相同。因此,探索短語塊級別的表示非常有用。?
注意到這兩點(diǎn),作者選擇基于轉(zhuǎn)移的方法。它可以建模長距離的依賴關(guān)系,而且能夠很好的利用塊級別的信息。?
之前已經(jīng)有一些學(xué)者嘗試?yán)没谵D(zhuǎn)移的方法去解決順滑問題。他們將句法分析和順滑任務(wù)聯(lián)合起來。對傳統(tǒng)的基于轉(zhuǎn)移的依存句法分析模型,修改模型中的轉(zhuǎn)移動(dòng)作,從而將順滑任務(wù)融入到句法分析中去。這種方法有自身的缺點(diǎn):其一,這種聯(lián)合模型要求訓(xùn)練數(shù)據(jù)同時(shí)標(biāo)注句法和順滑信息,降低了算法的實(shí)用性,而且實(shí)際性能嚴(yán)重依賴于人工的特征工程;其二,句法分析的噪聲可能會(huì)對順滑任務(wù)的性能造成嚴(yán)重影響。?
所以作者選擇探索不帶句法信息的轉(zhuǎn)移系統(tǒng)。作者引入了一種基于轉(zhuǎn)移的順滑模型,不僅不依賴任何句法信息,而且還能充分利用塊級別的信息以及上下文的全局表示。通過采用和依存句法分析類似的解碼算法,遞增地構(gòu)建和標(biāo)記輸入句子中的不流暢塊。?
請看圖2。
△?圖2:處理輸入‘want a flight to boston to denver’時(shí)的模型狀態(tài)
模型狀態(tài)由四個(gè)部分組成(按從上到下從左到右的順序):?
O(output):一個(gè)用于表示已經(jīng)被標(biāo)記為流暢的詞的傳統(tǒng)的 LSTM?
A(action):一個(gè)用于表示轉(zhuǎn)移系統(tǒng)采取動(dòng)作的完整歷史記錄的 LSTM
S(stack):一個(gè)用于表示部分已經(jīng)被標(biāo)記為不流暢的詞的 stack LSTM,用來捕獲塊級別信息
B(buffer):一個(gè)用于表示尚未被處理的句子的 Bi-LSTM?
輸入一個(gè)不流暢的句子。在初始時(shí)刻,O、A、S 都為空;B 是整句話,句子的首單詞在最前面。然后轉(zhuǎn)移系統(tǒng)采取動(dòng)作,逐個(gè)處理單詞。對第一個(gè)單詞,如果它流暢,把它從 B 放入 O,同時(shí)清空 S,這一動(dòng)作記為“OUT”;如果它不流暢,把它從 B 放入 S,這一動(dòng)作記為“DEL”。就這樣產(chǎn)生了一個(gè)動(dòng)作序列,最后輸出了一個(gè)流暢的句子。
請看圖3,輸入“a flight to boston to denver”,詳細(xì)列出了每步模型狀態(tài)。
△?圖3:處理“a flight to boston to denver”每步模型狀態(tài)
為了減少誤差傳播,作者特意采用了兩種策略:1. 柱搜索;2. Scheduled Sampling。?
在常用的英文 Switchboard 測試集的實(shí)驗(yàn)表明,本文的模型與目前所有方法相比,取得了最好的結(jié)果。
作者有話說
1. 研究得不夠透徹之處?
目前的研究方案本質(zhì)上還是基于數(shù)據(jù)驅(qū)動(dòng)的,其性能嚴(yán)重依賴于數(shù)據(jù)本身,并不是在理解句子基礎(chǔ)上對其進(jìn)行處理,這就導(dǎo)致其在實(shí)際應(yīng)用中會(huì)出現(xiàn)很多奇葩的錯(cuò)誤,比如當(dāng)遇到“嗶哩 嗶哩”這個(gè)詞組時(shí)候,就會(huì)傾向于把前面的“嗶哩”給刪除掉,因?yàn)樵谟?xùn)練數(shù)據(jù)中,這種前后重復(fù)的詞組,大部分情況下都會(huì)把前面的詞給刪除掉。?
2. Future Work?
自動(dòng)語音識別(ASR)得到的文本中的不流暢現(xiàn)象主要分為兩部分,一部分是 ASR 系統(tǒng)本身識別錯(cuò)誤造成的,另一部分是 speaker 話中自帶的。順滑任務(wù)主要關(guān)注的是 speaker 話中自帶的不流暢現(xiàn)象,并沒有能力處理識別錯(cuò)誤造成的不流暢現(xiàn)象。
要想構(gòu)建一個(gè)高效實(shí)用的轉(zhuǎn)寫系統(tǒng),還需要針對語音識別造成的錯(cuò)誤進(jìn)行處理,也就是在保留說話人真實(shí)意圖的基礎(chǔ)上,對句子進(jìn)行適當(dāng)?shù)霓D(zhuǎn)寫。
關(guān)于中國中文信息學(xué)會(huì)青工委
中國中文信息學(xué)會(huì)青年工作委員會(huì)是中國中文信息學(xué)會(huì)的下屬學(xué)術(shù)組織,專門面向全國中文信息處理領(lǐng)域的青年學(xué)者和學(xué)生開展工作。
?社區(qū)活動(dòng)?
? 不得不讀的GAN??
GAN 是現(xiàn)在最熱門的研究方向之一,那么到底有哪些 paper 是值得一讀的?
為此,我們將在 PaperWeekly 社區(qū)發(fā)起一次?GAN專題論文推薦,歡迎大家一起參與推薦和 GAN 相關(guān)的論文。針對活動(dòng)中出現(xiàn)的優(yōu)質(zhì)論文,我們將組織發(fā)起論文共讀,由一名學(xué)術(shù)大咖為活動(dòng)參與者進(jìn)行在線論文解讀。如果你推薦的論文被大家認(rèn)可,獲得了全場最高點(diǎn)贊數(shù),我們將為你送出一份?PaperWeekly 神秘大禮包。
?活動(dòng)時(shí)間?
10 月 9 日-10 月 20 日
?活動(dòng)地點(diǎn)?
http://www.paperweekly.site/activity/3
參與方式
?1??復(fù)制活動(dòng)鏈接進(jìn)入活動(dòng)頁面
?2??點(diǎn)擊我要參加,頁面右上角將會(huì)收到活動(dòng)消息通知(需注冊登錄)
?3??點(diǎn)擊網(wǎng)站右上方的推薦論文進(jìn)行推薦
?4??或從今日arXiv右側(cè)下載arXiv Paper推薦插件,即可進(jìn)行一鍵推薦
?5??為了更好的使用體驗(yàn),建議通過PC端訪問網(wǎng)站
*尚未注冊PaperWeekly社區(qū)的用戶請先申請注冊。網(wǎng)站目前采用審核制注冊,請如實(shí)填寫個(gè)人信息,我們將在12小時(shí)內(nèi)完成審核。
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 查看論文
總結(jié)
以上是生活随笔為你收集整理的A flight (to Boston) to Denver - 基于转移的顺滑技术研究 | 论文访谈间 #22的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从2017年顶会论文看Attention
- 下一篇: “Paper + Code”加量豪华套餐