机器阅读(一)--整体概述
https://plmsmile.github.io/2019/03/30/54-mrc-models/
主要包含:機(jī)器閱讀的起因和發(fā)展歷史;MRC數(shù)學(xué)形式;MRC與QA的區(qū)別;MRC的常見(jiàn)數(shù)據(jù)集和關(guān)鍵模型
發(fā)展動(dòng)機(jī)
傳統(tǒng)NLP任務(wù)
1) 詞性分析 part-of-speech tagging :判斷詞性
2) 命名實(shí)體識(shí)別 named entity recognition 識(shí)別實(shí)體
3) 句法依存 sytactic parsing 找到詞間關(guān)系、語(yǔ)法結(jié)構(gòu)信息
4) 指代消解 coreference resolution
閱讀理解動(dòng)機(jī)
讓機(jī)器理解人類(lèi)語(yǔ)言是AI領(lǐng)域長(zhǎng)期存在的問(wèn)題
閱讀理解能綜合評(píng)估各項(xiàng)NLP任務(wù),是一個(gè)綜合性任務(wù)
閱讀理解探索更加深層次的理解
回答問(wèn)題是檢測(cè)機(jī)器是否讀懂文章最好的辦法
歷史發(fā)展
早期系統(tǒng)
1. QUALM系統(tǒng) Lehnert,1977年
2. 早期數(shù)據(jù)集 Hirschman,1999年
- 小學(xué)文章,3年級(jí)-6年級(jí)
- 60篇 - 60篇:dev - test
- 只需要返回包含正確答案的句子即可
- who what when where why
3. Deep Read系統(tǒng) Hirschman,1999年
- rule-based bag-of-words,基于規(guī)則的詞袋模型
- 淺層語(yǔ)言處理:詞干提取、語(yǔ)義類(lèi)識(shí)別、指代消解
4. QUARC系統(tǒng) Riloff and Thelen,2000年
- rule-based
- 基于詞匯和語(yǔ)義對(duì)應(yīng)
還有3和4的結(jié)合(Charniak,2000年),準(zhǔn)確率在30%-40%左右。
機(jī)器學(xué)習(xí)時(shí)代
1. 三元組
(文章,問(wèn)題,答案)
2. 兩個(gè)數(shù)據(jù)集
MCTest:四選一;660篇科幻小說(shuō)
ProcessBank:二分類(lèi);585問(wèn)題,200個(gè)段落;生物類(lèi)型文章;需要理解實(shí)體關(guān)系和事件
3. 傳統(tǒng)規(guī)則方法
不使用訓(xùn)練數(shù)據(jù)集
1)啟發(fā)式的滑動(dòng)窗口方法
計(jì)算word overlap、distance information
2)文本蘊(yùn)含方法
用現(xiàn)有的文本蘊(yùn)含系統(tǒng),把(問(wèn)題,答案)對(duì)轉(zhuǎn)化為一個(gè)statement。
3)max-margin 學(xué)習(xí)框架,使用了很多語(yǔ)言特征:
句法依存、semantic frames、 指代消解、 discourse relation和 詞向量等特征。
4. 機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)方法比規(guī)則方法好,但是任然有很多不足:
1)依賴于現(xiàn)有語(yǔ)言特征工具
- 許多NLP任務(wù)沒(méi)有得到有效解決
- 任務(wù)泛化性差,一般在單一領(lǐng)域訓(xùn)練
- 語(yǔ)言特征任務(wù)添加了噪聲
2)很難模擬人類(lèi)閱讀,難以構(gòu)建有效特征
3)標(biāo)記數(shù)據(jù)太少,難以訓(xùn)練出效果好的統(tǒng)計(jì)模型
深度學(xué)習(xí)時(shí)代
深度學(xué)習(xí)火熱于2015年,DeepMind的Hermann大佬提出了一種新型低成本構(gòu)建大規(guī)模監(jiān)督數(shù)據(jù)的方法,同時(shí)提出了attention-based LSTM。
神經(jīng)網(wǎng)絡(luò)效果較好,能更好地在詞/句子上做match。
1) CNN/Daily-Mail數(shù)據(jù)集
- 把文章標(biāo)題/摘要中的名詞mask掉,再提問(wèn)這個(gè)名詞
- 使用NER和指代消解等技術(shù)
- 半合成的數(shù)據(jù)集,存在誤差,影響發(fā)展
2) SQuAD數(shù)據(jù)集
- 107785問(wèn)答數(shù)據(jù),546文章
- 第一個(gè)大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集
- 推動(dòng)了很多機(jī)器閱讀模型的發(fā)展
3) 深度學(xué)習(xí)的優(yōu)點(diǎn)
- 不依賴于語(yǔ)言特征工具,避免了噪聲誤差等
- 傳統(tǒng)NLP方法特征稀少、難以泛化
- 不用去手動(dòng)構(gòu)建特征, 工作重心在模型設(shè)計(jì)上
任務(wù)形式
閱讀理解任務(wù)看作是一種監(jiān)督學(xué)習(xí)任務(wù),目的是學(xué)習(xí)一種映射關(guān)系: f:(p,q)→af:(p,q)→a
自然形式
自然語(yǔ)言回答,沒(méi)有固定的形式free-form answer。沒(méi)有明確統(tǒng)一的評(píng)估指標(biāo)。有如下幾個(gè):
- BLEU(注意看新文章,好像說(shuō)這個(gè)評(píng)測(cè)不是很好)
- Meteor
- ROUGE
MRC和QA的比較
機(jī)器閱讀理解是Question Answering的一個(gè)特例。
1) 相同點(diǎn):問(wèn)題形式、解決方法和評(píng)估方法
2) 不同點(diǎn)
問(wèn)答系統(tǒng)在于:
- 旨在構(gòu)建問(wèn)答系統(tǒng),依賴于各種資源
- 資源包括:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文本、半結(jié)構(gòu)化表格和其他形式的資源
- QA致力于:尋找和識(shí)別有用資源;集成各種資源的信息;研究人們常問(wèn)的問(wèn)題
機(jī)器閱讀在于:
- 文本問(wèn)答
- 需要去理解文本信息
- 答案只依賴于文章
- 會(huì)設(shè)計(jì)不同類(lèi)型問(wèn)題去測(cè)試機(jī)器對(duì)文章不同方面的理解
數(shù)據(jù)集和模型
機(jī)器閱讀的發(fā)展原因:大規(guī)模數(shù)據(jù)和端到端神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn)。
數(shù)據(jù)集促進(jìn)了模型,模型又進(jìn)一步促進(jìn)了數(shù)據(jù)集的發(fā)展。
主要模型
- Attentive Reader
- Stanford Attentive Reader
- Match-LSTM
- BiDAF
- R-Net
- QANet
- BiDAF+self-attn+ELMo
- BERT
CNN/Daily Mail
完型填空,名詞
MCTest
四選一,MCTest論文
SQuAD 1.1
span預(yù)測(cè)。SQuAD1.1有如下缺點(diǎn):
- 問(wèn)題是根據(jù)文章提出的,降低了回答問(wèn)題的難度
- 答案缺少yes/no、計(jì)數(shù)、why、how等問(wèn)題類(lèi)型
- 答案很短,只有span類(lèi)型
- 缺少多句推理,SQuAD只需要一個(gè)句子便能回答
TriviaQA
span預(yù)測(cè)。TriviaQA和數(shù)據(jù)集論文
- 從web和維基百科中構(gòu)建,先收集QA,再收集P;更容易構(gòu)建大規(guī)模數(shù)據(jù)集
- 650k (p, q, a),文章p很長(zhǎng),20倍SQuAD
- 優(yōu)點(diǎn):解決了SQuAD問(wèn)題依賴于文章的問(wèn)題
- 缺點(diǎn):不能保證文章一定包含該問(wèn)題,這影響訓(xùn)練數(shù)據(jù)質(zhì)量
RACE
四選一。中國(guó)初高中試題。RACE和數(shù)據(jù)集論文
NarrativeQA
free-form答案形式。NarrativeQA和數(shù)據(jù)集論文
- 書(shū)籍/電影:原文和摘要
- 摘要問(wèn)答和原文問(wèn)答,平均長(zhǎng)度分別是659和62528
- 如果是原文,需要IR提取相關(guān)片段
- free-form 難以評(píng)估
SQuAD 2.0
Span預(yù)測(cè)。加入no-answer。SQuAD 2.0和數(shù)據(jù)集論文
HotpotQA
113k問(wèn)答數(shù)據(jù),可解釋的多步推理問(wèn)答。HotpotQA和數(shù)據(jù)集論文
- 要對(duì)多個(gè)文檔進(jìn)行查找和推理才能回答問(wèn)題
- 問(wèn)題多樣化,不局限于已有知識(shí)庫(kù)和知識(shí)模式
- 提供句子級(jí)別的支持推理線索supporting fact,系統(tǒng)能利用強(qiáng)大的監(jiān)督知識(shí)去推理回答,并對(duì)結(jié)果作出解釋
- 提供了新型模擬比較型問(wèn)題,來(lái)測(cè)試 QA 系統(tǒng)提取相關(guān)線索、執(zhí)行必要對(duì)比的能力
- 評(píng)估方法1:給10個(gè)片2個(gè)相關(guān),8個(gè)不相關(guān);自行識(shí)別相關(guān)片段并進(jìn)行回答
- 評(píng)估方法2:利用整個(gè)維基百科去進(jìn)行回答
參考文獻(xiàn)
- NEURAL READING COMPREHENSION AND BEYOND
總結(jié)
以上是生活随笔為你收集整理的机器阅读(一)--整体概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python实现大批量pdf格式论文的重
- 下一篇: 2018届校招面经精选