为什么每次有人大声通电话时,我就很烦躁...
文 | Chaos
編 | 小戲
不知你是否有過這樣的體驗,當你周圍有人在大聲講電話時,你會不自覺的感覺到煩躁。為什么呢?有一種委婉的說法是因為你聽到了不完整的對話。直白點說其實就是講電話的人通過放大聲音強行讓你接收了他說的信息,但你又無法接受到電話那邊的人所回復的信息,因此對這個講電話的人,你也可能不知所云,心情自然變得煩躁。
正如我們以前在做閱讀理解時經(jīng)常碰到的問題“請結(jié)合上下文談談此處作者想要表達的思想感情” 一樣,很多的自然語言處理的問題——諸如問答,對話,文本摘要等——都需要在一個豐富的文本環(huán)境下去預測某個單句的意思。
近期 Google 的大佬們就對這一問題進行了深入細致的研究,他們提出句子的 Decontextualization (去情境化,注意這里不是 Bert ,并不是一個新的模型名,就是一個名詞),目的是讓句子都能表述自己的 Truth-Conditional Meaning (真值條件義)。
論文題目:
Decontextualization: Making Sentences Stand-Alone
論文鏈接:
https://arxiv.org/pdf/2102.05169.pdf
定義
Definition 1 (Decontextualization)
Given a sentence-context pair , a sentence is a valid decontextualization of s if:
(1) the sentence is interpretable in the empty context; and (2) the truth-conditional meaning of in the empty context is the same as the truth-conditional meaning of in content?
這里涉及到的是一個句子文本對,其中是將被去情境化的句子,是包含句子的文本,那么作為的有效去情境化句子必須滿足:(1)在沒有上下文的情況下是可以被理解的;(2)句子所表達的真值條件義和在文本里的句子所表達的真值條件義是一致的。舉個例子吧,如下圖:
如果不結(jié)合上下文單看paragraph里灰色背景的句子,你就不知道是哪個隊在什么比賽上的最好成績是2018年決賽2-4輸給了法國隊。但是如果你看 Decontextualized Sentence,你就可以不再需要上下文,而直接明白文本里的灰色句子的意思,這個就是作者定義的去情境化。
那這個" Truth-Conditional Meaning " 又是什么呢?作者專門強調(diào)并且引用了一系列語義學理論。筆者并未深究,感覺就是"話語顯義",也就是字面意思,不涉及含義以及引申義。還是引用上面的例子,換個語境如下圖:
這里 Jon 說的話和之前文本里的句子一模一樣,所以 Decontextualized Sentence 也可以沿用之前的句子,但是實際上語境里 Susan 問的是 Croatia 是否拿過冠軍, Jon 的回答從表面上看并不直接,但卻間接包含了 Croatia 并未奪冠的含義,這個含義在去情境化的句子里也沒有直接表達。
這也就是在 Decontextualiation 過程中只要求字面意思一樣,并不涉及含義,于是便出現(xiàn)了在兩種不同語境里的同一句話實際上 Decontextualized 之后是一樣的,這是不是真就是"去情境化"呢?無論你是在哪里"飆車",反正超速就得扣駕照分。
通過對" Truth-Conditional Meaning "的考究,我們確實可以看出 Google 大佬們工作真是細致,確實對現(xiàn)階段的 NLP 模型來說,能理解話語顯義感覺就很不錯了,要是不久的將來, NLP 模型能理解你說的"內(nèi)涵",那可真就厲害了。扯遠了...拉回來,如圖1所示,像" thus far "這樣的額外的語境,在去情境化的過程中是不需要處理的。
任務
訓練語言模型完成這樣一個去情境化的任務其實是一個有監(jiān)督的學習任務,既然是有監(jiān)督的學習,就離不開"打標"。一個注釋者——即打標的人,需要對一份包含目標句子(首尾用,和標注)的完整文本進行打標。
首先他需要判斷這個句子是否可以去情境化,即標注 FEASIBLE 或者 INFEASIBLE, 如果例子被標 FEASIBLE ,那么注釋者需要提供滿足 Definition 1 的去情境化后的句子。
被標 FEASIBLE 的句子指的是那些不需要或者只需稍微編輯就能去情境化的句子,而那被標 INFEASIBLE 的句子就是很難被去情境化的句子,比方說:
筆者碰巧學過物理,這句去情境化后應該是“金屬的相變潛熱與熱容之比要比水高出許多,這個比值通常在400到1200之間”,但是這個過于專業(yè)就算去情境化后也很難被人理解,所以便被標注 INFEASIBLE ,此外還有一些敘述性比較強或者過于依賴上下文的句子也很難被去情境化。
對于被標注為 FEASIBLE 的句子,編輯的方式也是有套路的,通常可以分為4大類:
(1) Name Completion , Pronoun / NP Swap 名稱補全和代詞轉(zhuǎn)換。
(2) DM Removal 包括對一些語篇標記( Discourse Markers )詞的刪除,比方說( therefore )。
(3) Bridging , Global scoping 包括加一些短語(通常是介詞短語)來對某些名詞詞組或者是整個句子進行補充說明。
(4) Addition 通常是加入一些背景元素增強可讀性。
示例如下:
數(shù)據(jù)與模型
數(shù)據(jù)使用的是英文維基百科,采用人工打標的方式,注釋者都是美國本土的 English speaker 。總共28個注釋者,其中11個注釋者注釋了超過1K個 examples (有必要說的這么詳細嗎?額, Google 大佬,有必要,為了保持樣本的一致性,那為什么不讓1個人注釋?嘿嘿,你想累死那位老哥...) 。
數(shù)據(jù)統(tǒng)計如下:
仔細看一下數(shù)據(jù)統(tǒng)計,你就會發(fā)現(xiàn)其實絕大部分的 examples 都是那11位注釋者注釋的(所以說是一致性嘛),這個里面文本長度( par.len )和句子長度( sent.len )都是用字節(jié)( bytes )計算的,其中訓練集只有一個 Reference ,驗證和測試集有5個 Reference ,另外 Expert 那一行的樣本是作者們自己注釋的。
作者提供了兩套模型用來進行自動去情境化,一個是指代消解模型,還有一個是 Seq2seq 模型,數(shù)據(jù)的輸入形式如下:
其中是分隔符,是維基百科的頁標題,是該段文本的小標題,是文本里的句子,是目標句子。
指代消解模型使用的是開源的 SpanBert-Large (保持原始的超參數(shù)),對輸入的 Sequence 采用這個模型,將所有和目標句子存在指代關(guān)系的部分都篩選出來,然后選擇其中在文本里最靠前的和目標句有指代關(guān)系的實體進行替換,平均下來有36.5%的 examples 是通過這種方式改進的。
Seq2seq 模型采用的是 T5 模型,兩個變種,一個是 Base 版本一個是11B,主要區(qū)別在模型容量上。
這里訓練時將 Target Sequence 設(shè)置為 ,其中
當 時 是去情境化后的句子,當時,是文本原句。
結(jié)果與評估
對于去情境化的可行性檢測,也就是判斷 FEASIBLE 和 INFEASIBLE 的一個二分類問題, T5 預測 FEASIBLE 達到了88%的準確率, T5-11B 達到了89%的準確率,都優(yōu)于人的判斷(85%的準確率),再次說明預訓練語言模型在分類問題上的良好表現(xiàn)。另外指代消解模型并不能判斷可行性。
對于去情境化句子生成結(jié)果,作者給了4種評估方法:(1) Length Increase :長度增量為;
(2) % edited:在去情境化的過程中,修改部分所占得比例;
(3) Sentence match:句子匹配程度, 描述模型預測結(jié)果和 Reference 之間的相似性;
(4) ?SARI(System Output Against References And Against The Input Sentence):這里主要是將模型預測結(jié)果和 Reference 一起和輸入原句進行對比,采用一元模型,對每個 Reference ,可以算它的 Add Edits,也就是在 Reference 里而不在原句里的部分,同理也可以計算 Delete edits ,以這個為標準,計算模型輸出在 Add/Delete Edits 上相對于 Reference 的準確率/召回率/F1值,作者主要以 SARI 作為模型的評估標準。
評估結(jié)果如下:
可以看出 T-5 模型在各項指標上明顯優(yōu)于指代消解模型,其中容量更大的 11B Model 表現(xiàn)更好 而且在 Sentencematch 上更是超過了 Human ,不過 Human 在更具代表性的 SARI 值上表現(xiàn)是最好的
作者還做了人工評估,也就是將模型輸出與注釋者注釋的句子放在一塊讓專家評估。主要有兩個指標,一是語句的流暢程度,二是是否正確的去情境化了。評估結(jié)果模型預測在流暢程度上得分88%,在正確性上得分67.5%,Human Reference 在流暢程度上得分84.5%,在準確性上得分 78.5%。
另外作者還做了一個喜好測試,即讓兩位專家選擇是更喜歡模型的輸出還是注釋者的注釋,也可以兩者都不選。結(jié)果如下:
行與列分別代表兩位專家,結(jié)果還是比較一致的,兩位專家還是更喜歡注釋者的句子,不過對于一些 Samples 專家也會選擇T5模型的輸出。
總結(jié)
論文作者定義了何為句子的去情境化,構(gòu)建了一個用于此任務的數(shù)據(jù)集,而且還給出了一個去情境化相對效果還不錯的模型( T5-11B )。
總的來說,對于一個相對較新的NLP任務,作者們在任務的確立,數(shù)據(jù)集的構(gòu)建,模型的篩選,甚者到最后的應用與推廣等方方面面都做了細致的工作,確實給眾多NLPer樹立了一個良好的榜樣!
尋求報道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務合作”
后臺回復關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的为什么每次有人大声通电话时,我就很烦躁...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学PyTorch还是TensorFlow
- 下一篇: 如何做机器学习项目规划?一个事半功倍的c