當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器阅读(一)--整体概述

發(fā)布時(shí)間：2024/7/5 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了机器阅读(一)--整体概述小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

https://plmsmile.github.io/2019/03/30/54-mrc-models/

主要包含：機(jī)器閱讀的起因和發(fā)展歷史；MRC數(shù)學(xué)形式；MRC與QA的區(qū)別；MRC的常見(jiàn)數(shù)據(jù)集和關(guān)鍵模型

發(fā)展動(dòng)機(jī)

傳統(tǒng)NLP任務(wù)

1) 詞性分析 part-of-speech tagging ：判斷詞性

2) 命名實(shí)體識(shí)別 named entity recognition 識(shí)別實(shí)體

3) 句法依存 sytactic parsing 找到詞間關(guān)系、語(yǔ)法結(jié)構(gòu)信息

4) 指代消解 coreference resolution

閱讀理解動(dòng)機(jī)

讓機(jī)器理解人類(lèi)語(yǔ)言是AI領(lǐng)域長(zhǎng)期存在的問(wèn)題

閱讀理解能綜合評(píng)估各項(xiàng)NLP任務(wù)，是一個(gè)綜合性任務(wù)

閱讀理解探索更加深層次的理解

回答問(wèn)題是檢測(cè)機(jī)器是否讀懂文章最好的辦法

歷史發(fā)展

早期系統(tǒng)

1. QUALM系統(tǒng) Lehnert，1977年

2. 早期數(shù)據(jù)集 Hirschman，1999年

小學(xué)文章，3年級(jí)-6年級(jí)
60篇 - 60篇：dev - test
只需要返回包含正確答案的句子即可
who what when where why

3. Deep Read系統(tǒng) Hirschman，1999年

rule-based bag-of-words，基于規(guī)則的詞袋模型
淺層語(yǔ)言處理：詞干提取、語(yǔ)義類(lèi)識(shí)別、指代消解

4. QUARC系統(tǒng) Riloff and Thelen，2000年

rule-based
基于詞匯和語(yǔ)義對(duì)應(yīng)

還有3和4的結(jié)合（Charniak，2000年），準(zhǔn)確率在30%-40%左右。

機(jī)器學(xué)習(xí)時(shí)代

1. 三元組

（文章，問(wèn)題，答案）

2. 兩個(gè)數(shù)據(jù)集

MCTest：四選一；660篇科幻小說(shuō)

ProcessBank：二分類(lèi)；585問(wèn)題，200個(gè)段落；生物類(lèi)型文章；需要理解實(shí)體關(guān)系和事件

3. 傳統(tǒng)規(guī)則方法

不使用訓(xùn)練數(shù)據(jù)集

1）啟發(fā)式的滑動(dòng)窗口方法

計(jì)算word overlap、distance information

2）文本蘊(yùn)含方法

用現(xiàn)有的文本蘊(yùn)含系統(tǒng)，把(問(wèn)題，答案)對(duì)轉(zhuǎn)化為一個(gè)statement。

3）max-margin 學(xué)習(xí)框架，使用了很多語(yǔ)言特征:

句法依存、semantic frames、指代消解、 discourse relation和詞向量等特征。

4. 機(jī)器學(xué)習(xí)方法

機(jī)器學(xué)習(xí)方法比規(guī)則方法好，但是任然有很多不足：

1）依賴于現(xiàn)有語(yǔ)言特征工具

許多NLP任務(wù)沒(méi)有得到有效解決
任務(wù)泛化性差，一般在單一領(lǐng)域訓(xùn)練
語(yǔ)言特征任務(wù)添加了噪聲

2）很難模擬人類(lèi)閱讀，難以構(gòu)建有效特征

3）標(biāo)記數(shù)據(jù)太少，難以訓(xùn)練出效果好的統(tǒng)計(jì)模型

深度學(xué)習(xí)時(shí)代

深度學(xué)習(xí)火熱于2015年，DeepMind的Hermann大佬提出了一種新型低成本構(gòu)建大規(guī)模監(jiān)督數(shù)據(jù)的方法，同時(shí)提出了attention-based LSTM。

神經(jīng)網(wǎng)絡(luò)效果較好，能更好地在詞/句子上做match。

1) CNN/Daily-Mail數(shù)據(jù)集

把文章標(biāo)題/摘要中的名詞mask掉，再提問(wèn)這個(gè)名詞
使用NER和指代消解等技術(shù)
半合成的數(shù)據(jù)集，存在誤差，影響發(fā)展

2) SQuAD數(shù)據(jù)集

107785問(wèn)答數(shù)據(jù)，546文章
第一個(gè)大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集
推動(dòng)了很多機(jī)器閱讀模型的發(fā)展

3) 深度學(xué)習(xí)的優(yōu)點(diǎn)

不依賴于語(yǔ)言特征工具，避免了噪聲誤差等
傳統(tǒng)NLP方法特征稀少、難以泛化
不用去手動(dòng)構(gòu)建特征，工作重心在模型設(shè)計(jì)上

任務(wù)形式

閱讀理解任務(wù)看作是一種監(jiān)督學(xué)習(xí)任務(wù)，目的是學(xué)習(xí)一種映射關(guān)系： $f : (p, q) \to a$

自然形式

自然語(yǔ)言回答，沒(méi)有固定的形式free-form answer。沒(méi)有明確統(tǒng)一的評(píng)估指標(biāo)。有如下幾個(gè)：

BLEU(注意看新文章，好像說(shuō)這個(gè)評(píng)測(cè)不是很好)
Meteor
ROUGE

MRC和QA的比較

機(jī)器閱讀理解是Question Answering的一個(gè)特例。

1) 相同點(diǎn)：問(wèn)題形式、解決方法和評(píng)估方法

2) 不同點(diǎn)

問(wèn)答系統(tǒng)在于：

旨在構(gòu)建問(wèn)答系統(tǒng)，依賴于各種資源
資源包括：結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文本、半結(jié)構(gòu)化表格和其他形式的資源
QA致力于：尋找和識(shí)別有用資源；集成各種資源的信息；研究人們常問(wèn)的問(wèn)題

機(jī)器閱讀在于：

文本問(wèn)答
需要去理解文本信息
答案只依賴于文章
會(huì)設(shè)計(jì)不同類(lèi)型問(wèn)題去測(cè)試機(jī)器對(duì)文章不同方面的理解

數(shù)據(jù)集和模型

機(jī)器閱讀的發(fā)展原因：大規(guī)模數(shù)據(jù)和端到端神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn)。

數(shù)據(jù)集促進(jìn)了模型，模型又進(jìn)一步促進(jìn)了數(shù)據(jù)集的發(fā)展。

主要模型

Attentive Reader
Stanford Attentive Reader
Match-LSTM
BiDAF
R-Net
QANet
BiDAF+self-attn+ELMo
BERT

CNN/Daily Mail

完型填空，名詞

MCTest

四選一，MCTest論文

SQuAD 1.1

span預(yù)測(cè)。SQuAD1.1有如下缺點(diǎn)：

問(wèn)題是根據(jù)文章提出的，降低了回答問(wèn)題的難度
答案缺少yes/no、計(jì)數(shù)、why、how等問(wèn)題類(lèi)型
答案很短，只有span類(lèi)型
缺少多句推理，SQuAD只需要一個(gè)句子便能回答

TriviaQA

span預(yù)測(cè)。TriviaQA和數(shù)據(jù)集論文

從web和維基百科中構(gòu)建，先收集QA，再收集P；更容易構(gòu)建大規(guī)模數(shù)據(jù)集
650k (p, q, a)，文章p很長(zhǎng)，20倍SQuAD
優(yōu)點(diǎn)：解決了SQuAD問(wèn)題依賴于文章的問(wèn)題
缺點(diǎn)：不能保證文章一定包含該問(wèn)題，這影響訓(xùn)練數(shù)據(jù)質(zhì)量

RACE

四選一。中國(guó)初高中試題。RACE和數(shù)據(jù)集論文

NarrativeQA

free-form答案形式。NarrativeQA和數(shù)據(jù)集論文

書(shū)籍/電影：原文和摘要
摘要問(wèn)答和原文問(wèn)答，平均長(zhǎng)度分別是659和62528
如果是原文，需要IR提取相關(guān)片段
free-form 難以評(píng)估

SQuAD 2.0

Span預(yù)測(cè)。加入no-answer。SQuAD 2.0和數(shù)據(jù)集論文

HotpotQA

113k問(wèn)答數(shù)據(jù)，可解釋的多步推理問(wèn)答。HotpotQA和數(shù)據(jù)集論文

要對(duì)多個(gè)文檔進(jìn)行查找和推理才能回答問(wèn)題
問(wèn)題多樣化，不局限于已有知識(shí)庫(kù)和知識(shí)模式
提供句子級(jí)別的支持推理線索supporting fact，系統(tǒng)能利用強(qiáng)大的監(jiān)督知識(shí)去推理回答，并對(duì)結(jié)果作出解釋
提供了新型模擬比較型問(wèn)題，來(lái)測(cè)試 QA 系統(tǒng)提取相關(guān)線索、執(zhí)行必要對(duì)比的能力
評(píng)估方法1：給10個(gè)片2個(gè)相關(guān)，8個(gè)不相關(guān)；自行識(shí)別相關(guān)片段并進(jìn)行回答
評(píng)估方法2：利用整個(gè)維基百科去進(jìn)行回答

參考文獻(xiàn)

NEURAL READING COMPREHENSION AND BEYOND

</div> 創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的机器阅读(一)--整体概述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

机器

上一篇： python实现大批量pdf格式论文的重
下一篇： 2018届校招面经精选