SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解
作者丨張琨
學(xué)校丨中國科學(xué)技術(shù)大學(xué)博士生
研究方向丨自然語言處理
論文動機(jī)
機(jī)器閱讀理解一直是自然語言處理領(lǐng)域的一個非常重要的研究方向,目前雖然在一些給定條件下,機(jī)器學(xué)習(xí)的方法可以取得和人類類似甚至好于人類的效果,但在實(shí)際的閱讀條件下,兩者之間還存在比較大的差異。人類的閱讀習(xí)慣在一定程度上仍對機(jī)器閱讀理解模型有啟發(fā)作用。
基于這樣的一個出發(fā)點(diǎn),本文的作者通過收集眼動數(shù)據(jù)對人類的閱讀行為模式進(jìn)行分析,并嘗試通過回答以下三個問題對人類的閱讀行為模式進(jìn)行分析:
1. 在閱讀理解任務(wù)中,人類是如何閱讀和尋找答案的?
2. 在閱讀理解任務(wù)中,什么因素影響著人類的注意力分配機(jī)制?
3. 人類的閱讀行為是否有助于提高機(jī)器學(xué)習(xí)模型在閱讀理解任務(wù)上的表現(xiàn)?
用戶研究分析
為了回答以上問題,對用戶行為進(jìn)行詳細(xì)分析,本文首先對用戶進(jìn)行了相關(guān)研究,整體的數(shù)據(jù)手機(jī)過程如下圖所示:
首先,作者將閱讀理解數(shù)據(jù)集中的問題根據(jù)類型分為不同的類型,每個任務(wù)集包含 15 個問題,涵蓋 Description, Entity and Yesno (5 questions for each), cover both Fact (8 questions) ,and Opinion (7 questions) categories,然后每個參與者經(jīng)過培訓(xùn)之后,獨(dú)立回答這些問題,如上圖所示,每個用戶回答問題需要經(jīng)過一下四個階段:
1. 首先看到一個問題,在閱讀完問題之后,他們被要求復(fù)寫問題,并對問題進(jìn)行評價(預(yù)先定義的 5 個評價標(biāo)準(zhǔn));
2. 閱讀對應(yīng)文檔,并在文檔中找到最適合的答案,在該過程中用戶不能再看到問題;
3. 寫出對應(yīng)的答案,答案需要精準(zhǔn),并且來自文檔或者被文檔中的片段支持,該過程不能引入用戶自己的先驗(yàn)知識;
4. 再次提供問題和文檔,用戶需要標(biāo)注出答案對應(yīng)的證據(jù),同時還需要標(biāo)注出每個證據(jù)的有用程度(預(yù)先定義)如果文檔中沒有答案,則不需要標(biāo)出任何內(nèi)容。
在 1,2 階段,作者還通過眼動儀來收集用戶的注意力分配信息數(shù)據(jù),通過這些方法,作者就收集到了用戶在閱讀理解中的行為數(shù)據(jù),并通過對這些數(shù)據(jù)的分析回答之前提出的三個問題。
問題1:在閱讀理解任務(wù)中,人類是如何閱讀和尋找答案的?
上圖展示了人類在閱讀過程中的注意力分配,從這個圖中可以看出,無論文檔中是否有答案,用戶更習(xí)慣于從頭到尾進(jìn)行閱讀。之前已有研究表明了人類的閱讀行為包含三類:down,up 和 skip,down 就是順序閱讀,up就是往回讀,skip就是跳過一些內(nèi)容讀。作者也對用戶的這三種行為進(jìn)行了分析:
從上圖中可以看出,用戶更傾向于在剛開始閱讀時按順序閱讀,在之后的閱讀中跳過不重要的內(nèi)容,只關(guān)注最重要的內(nèi)容。同時在上圖中的 c 中可以看出,用戶會花費(fèi)更多的時間在用候選答案的部分,更少的關(guān)注沒有答案的文本。當(dāng)文檔中包含答案時,可以看到 up 和 skip 的行為會更常見,也就是用戶需要對答案進(jìn)行驗(yàn)證。但當(dāng)文檔中沒有答案時,只有 down 的行為會增加。
問題2:在閱讀理解任務(wù)中,什么因素影響著人類的注意力分配機(jī)制?
為了回答該問題,作者分別對影響用戶行為的四種主要因素進(jìn)行了分析:答案,位置,詞的類別和匹配信號。
從這個表中可以看出,用戶會更傾向于關(guān)注包含答案的內(nèi)容,而在不包含答案的部分,用戶的關(guān)注時間都相對比較短。
該圖展示了答案詞出現(xiàn)的位置對用戶造成的影響,可以看出,答案更多的出現(xiàn)的文章的前部。對不存在答案的文檔,可以看出用戶的關(guān)注在文檔前 80% 變動并不大,而在文檔結(jié)尾有比較大的下降。而當(dāng)文檔中有答案時,可以看出注意力的分布和答案在文檔中的分布是類似的,也就是答案最終影響了用戶的關(guān)注位置。
詞的屬性上,作者通過研究 IDF 和詞性進(jìn)行了相關(guān)的分析,可以看出1)一個詞的 IDF 越大,受到的關(guān)注度越大,因?yàn)?IDF 越大,這個詞出現(xiàn)的頻率閱讀,說明用戶更關(guān)注那些不常見的詞;2)在用戶的閱讀過程中,用戶更關(guān)注名詞,主要是名詞包含了更有用的信息。
在匹配信號中可以看出,那些和問題語義相似度更高的詞會收獲更多的用戶關(guān)注。
問題3:人類的閱讀行為是否有助于提高機(jī)器學(xué)習(xí)模型在閱讀理解任務(wù)上的表現(xiàn)?
在該問題中,作者提出了一種兩階段的模型,在第一階段搜索可能的答案,在第二階段通過比較和驗(yàn)證生成最后的答案,具體模型效果如下圖所示:
總結(jié)
本文針對用戶的閱讀行為模式進(jìn)行了詳細(xì)分析,通過具體的行為數(shù)據(jù)解釋了用戶的復(fù)雜閱讀習(xí)慣,這其中還是有很多值得我們借鑒的,由于本文主要針對用戶的閱讀行為進(jìn)行分析,因此相關(guān)的模型部分相對少。但文中總結(jié)出的相關(guān)內(nèi)容信息還是有很多可以學(xué)習(xí)的,還是很有意思的。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
資源:10份機(jī)器閱讀理解數(shù)據(jù)集 | 論文集精選
基于CNN的閱讀理解式問答模型:DGCNN
利用GAN進(jìn)行故事型常識閱讀理解
近期值得讀的知識圖譜論文,這里幫你總結(jié)好了
SIGIR 2019?| 結(jié)合答案信息的重復(fù)問題檢測方法
后BERT時代的那些NLP預(yù)訓(xùn)練模型
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019 IROS—终生机器视觉数据集全
- 下一篇: ICCV 2019 | 基于关联语义注意