日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器阅读(一)--整体概述

發(fā)布時(shí)間:2024/7/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器阅读(一)--整体概述 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

https://plmsmile.github.io/2019/03/30/54-mrc-models/

主要包含:機(jī)器閱讀的起因和發(fā)展歷史;MRC數(shù)學(xué)形式;MRC與QA的區(qū)別;MRC的常見(jiàn)數(shù)據(jù)集和關(guān)鍵模型

發(fā)展動(dòng)機(jī)

傳統(tǒng)NLP任務(wù)

1) 詞性分析 part-of-speech tagging :判斷詞性

2) 命名實(shí)體識(shí)別 named entity recognition 識(shí)別實(shí)體

3) 句法依存 sytactic parsing 找到詞間關(guān)系、語(yǔ)法結(jié)構(gòu)信息

4) 指代消解 coreference resolution

閱讀理解動(dòng)機(jī)

  • 讓機(jī)器理解人類(lèi)語(yǔ)言是AI領(lǐng)域長(zhǎng)期存在的問(wèn)題

  • 閱讀理解能綜合評(píng)估各項(xiàng)NLP任務(wù),是一個(gè)綜合性任務(wù)

  • 閱讀理解探索更加深層次的理解

  • 回答問(wèn)題是檢測(cè)機(jī)器是否讀懂文章最好的辦法

  • 歷史發(fā)展

    早期系統(tǒng)

    1. QUALM系統(tǒng) Lehnert,1977年

    2. 早期數(shù)據(jù)集 Hirschman,1999年

    • 小學(xué)文章,3年級(jí)-6年級(jí)
    • 60篇 - 60篇:dev - test
    • 只需要返回包含正確答案的句子即可
    • who what when where why

    3. Deep Read系統(tǒng) Hirschman,1999年

    • rule-based bag-of-words,基于規(guī)則的詞袋模型
    • 淺層語(yǔ)言處理:詞干提取、語(yǔ)義類(lèi)識(shí)別、指代消解

    4. QUARC系統(tǒng) Riloff and Thelen,2000年

    • rule-based
    • 基于詞匯和語(yǔ)義對(duì)應(yīng)

    還有3和4的結(jié)合(Charniak,2000年),準(zhǔn)確率在30%-40%左右。

    機(jī)器學(xué)習(xí)時(shí)代

    1. 三元組

    (文章,問(wèn)題,答案)

    2. 兩個(gè)數(shù)據(jù)集

    MCTest:四選一;660篇科幻小說(shuō)

    ProcessBank:二分類(lèi);585問(wèn)題,200個(gè)段落;生物類(lèi)型文章;需要理解實(shí)體關(guān)系和事件

    3. 傳統(tǒng)規(guī)則方法

    不使用訓(xùn)練數(shù)據(jù)集

    1)啟發(fā)式的滑動(dòng)窗口方法

    計(jì)算word overlap、distance information

    2)文本蘊(yùn)含方法

    用現(xiàn)有的文本蘊(yùn)含系統(tǒng),把(問(wèn)題,答案)對(duì)轉(zhuǎn)化為一個(gè)statement。

    3)max-margin 學(xué)習(xí)框架,使用了很多語(yǔ)言特征:

    句法依存、semantic frames、 指代消解、 discourse relation和 詞向量等特征。

    4. 機(jī)器學(xué)習(xí)方法

    機(jī)器學(xué)習(xí)方法比規(guī)則方法好,但是任然有很多不足:

    1)依賴于現(xiàn)有語(yǔ)言特征工具

    • 許多NLP任務(wù)沒(méi)有得到有效解決
    • 任務(wù)泛化性差,一般在單一領(lǐng)域訓(xùn)練
    • 語(yǔ)言特征任務(wù)添加了噪聲

    2)很難模擬人類(lèi)閱讀,難以構(gòu)建有效特征

    3)標(biāo)記數(shù)據(jù)太少,難以訓(xùn)練出效果好的統(tǒng)計(jì)模型

    深度學(xué)習(xí)時(shí)代

    深度學(xué)習(xí)火熱于2015年,DeepMind的Hermann大佬提出了一種新型低成本構(gòu)建大規(guī)模監(jiān)督數(shù)據(jù)的方法,同時(shí)提出了attention-based LSTM。

    神經(jīng)網(wǎng)絡(luò)效果較好,能更好地在詞/句子上做match。

    1) CNN/Daily-Mail數(shù)據(jù)集

    • 把文章標(biāo)題/摘要中的名詞mask掉,再提問(wèn)這個(gè)名詞
    • 使用NER和指代消解等技術(shù)
    • 半合成的數(shù)據(jù)集,存在誤差,影響發(fā)展

    2) SQuAD數(shù)據(jù)集

    • 107785問(wèn)答數(shù)據(jù),546文章
    • 第一個(gè)大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集
    • 推動(dòng)了很多機(jī)器閱讀模型的發(fā)展

    3) 深度學(xué)習(xí)的優(yōu)點(diǎn)

    • 不依賴于語(yǔ)言特征工具,避免了噪聲誤差等
    • 傳統(tǒng)NLP方法特征稀少、難以泛化
    • 不用去手動(dòng)構(gòu)建特征, 工作重心在模型設(shè)計(jì)上

    任務(wù)形式

    閱讀理解任務(wù)看作是一種監(jiān)督學(xué)習(xí)任務(wù),目的是學(xué)習(xí)一種映射關(guān)系: f:(p,q)af:(p,q)→a

    自然形式

    自然語(yǔ)言回答,沒(méi)有固定的形式free-form answer。沒(méi)有明確統(tǒng)一的評(píng)估指標(biāo)。有如下幾個(gè):

    • BLEU(注意看新文章,好像說(shuō)這個(gè)評(píng)測(cè)不是很好)
    • Meteor
    • ROUGE

    MRC和QA的比較

    機(jī)器閱讀理解是Question Answering的一個(gè)特例。

    1) 相同點(diǎn):問(wèn)題形式、解決方法和評(píng)估方法

    2) 不同點(diǎn)

    問(wèn)答系統(tǒng)在于:

    • 旨在構(gòu)建問(wèn)答系統(tǒng),依賴于各種資源
    • 資源包括:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文本、半結(jié)構(gòu)化表格和其他形式的資源
    • QA致力于:尋找和識(shí)別有用資源;集成各種資源的信息;研究人們常問(wèn)的問(wèn)題

    機(jī)器閱讀在于:

    • 文本問(wèn)答
    • 需要去理解文本信息
    • 答案只依賴于文章
    • 會(huì)設(shè)計(jì)不同類(lèi)型問(wèn)題去測(cè)試機(jī)器對(duì)文章不同方面的理解

    數(shù)據(jù)集和模型

    機(jī)器閱讀的發(fā)展原因:大規(guī)模數(shù)據(jù)和端到端神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn)。

    數(shù)據(jù)集促進(jìn)了模型,模型又進(jìn)一步促進(jìn)了數(shù)據(jù)集的發(fā)展。

    主要模型

    • Attentive Reader
    • Stanford Attentive Reader
    • Match-LSTM
    • BiDAF
    • R-Net
    • QANet
    • BiDAF+self-attn+ELMo
    • BERT

    CNN/Daily Mail

    完型填空,名詞

    MCTest

    四選一,MCTest論文

    SQuAD 1.1

    span預(yù)測(cè)。SQuAD1.1有如下缺點(diǎn):

    • 問(wèn)題是根據(jù)文章提出的,降低了回答問(wèn)題的難度
    • 答案缺少yes/no、計(jì)數(shù)、why、how等問(wèn)題類(lèi)型
    • 答案很短,只有span類(lèi)型
    • 缺少多句推理,SQuAD只需要一個(gè)句子便能回答

    TriviaQA

    span預(yù)測(cè)。TriviaQA和數(shù)據(jù)集論文

    • 從web和維基百科中構(gòu)建,先收集QA,再收集P;更容易構(gòu)建大規(guī)模數(shù)據(jù)集
    • 650k (p, q, a),文章p很長(zhǎng),20倍SQuAD
    • 優(yōu)點(diǎn):解決了SQuAD問(wèn)題依賴于文章的問(wèn)題
    • 缺點(diǎn):不能保證文章一定包含該問(wèn)題,這影響訓(xùn)練數(shù)據(jù)質(zhì)量

    RACE

    四選一。中國(guó)初高中試題。RACE和數(shù)據(jù)集論文

    NarrativeQA

    free-form答案形式。NarrativeQA和數(shù)據(jù)集論文

    • 書(shū)籍/電影:原文和摘要
    • 摘要問(wèn)答和原文問(wèn)答,平均長(zhǎng)度分別是659和62528
    • 如果是原文,需要IR提取相關(guān)片段
    • free-form 難以評(píng)估

    SQuAD 2.0

    Span預(yù)測(cè)。加入no-answer。SQuAD 2.0和數(shù)據(jù)集論文

    HotpotQA

    113k問(wèn)答數(shù)據(jù),可解釋的多步推理問(wèn)答。HotpotQA和數(shù)據(jù)集論文

    • 要對(duì)多個(gè)文檔進(jìn)行查找和推理才能回答問(wèn)題
    • 問(wèn)題多樣化,不局限于已有知識(shí)庫(kù)和知識(shí)模式
    • 提供句子級(jí)別的支持推理線索supporting fact,系統(tǒng)能利用強(qiáng)大的監(jiān)督知識(shí)去推理回答,并對(duì)結(jié)果作出解釋
    • 提供了新型模擬比較型問(wèn)題,來(lái)測(cè)試 QA 系統(tǒng)提取相關(guān)線索、執(zhí)行必要對(duì)比的能力
    • 評(píng)估方法1:給10個(gè)片2個(gè)相關(guān),8個(gè)不相關(guān);自行識(shí)別相關(guān)片段并進(jìn)行回答
    • 評(píng)估方法2:利用整個(gè)維基百科去進(jìn)行回答

    參考文獻(xiàn)

    • NEURAL READING COMPREHENSION AND BEYOND
    </div> 創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

    總結(jié)

    以上是生活随笔為你收集整理的机器阅读(一)--整体概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。