當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器阅读理解首次超越人类！云从刷新自然语言处理新纪录

發(fā)布時(shí)間：2024/7/5 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了机器阅读理解首次超越人类！云从刷新自然语言处理新纪录小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

媒體動(dòng)態(tài)發(fā)展歷程資質(zhì)榮譽(yù)人才招聘

機(jī)器閱讀理解首次超越人類！云從刷新自然語(yǔ)言處理新紀(jì)錄

2019-03-11 10:06 瀏覽：454

近日，云從科技和上海交通大學(xué)在自然語(yǔ)言處理領(lǐng)域取得重大突破，在卡內(nèi)基-梅隆大學(xué)發(fā)起的大型深層閱讀理解任務(wù)數(shù)據(jù)集RACE數(shù)據(jù)集上登頂?shù)谝?#xff0c;并成為世界首個(gè)超過(guò)人類排名的模型。

云從科技與上海交通大學(xué)首創(chuàng)了一種閱讀信息匹配機(jī)制——DCMN模型，使機(jī)器的正確率達(dá)到72.1%，較之前最好結(jié)果（67.9%）提高了4.2個(gè)百分點(diǎn)，并在高中測(cè)試題部分首次超越人類69.4%的成績(jī)。

有種題型叫“閱讀理解”

不管是中文、英語(yǔ)還是任意其他語(yǔ)言，閱讀理解都算得上是最難的題型之一，需要信息收集、知識(shí)儲(chǔ)備、邏輯推理、甚至還要融會(huì)貫通的主觀作答。

微軟創(chuàng)始人比爾·蓋茨曾經(jīng)表示，“語(yǔ)言理解是人工智能領(lǐng)域皇冠上的明珠”。

機(jī)器閱讀理解，是指機(jī)器通過(guò)閱讀和理解大量文字，有效整理和總結(jié)出人類所需要的信息。

按照人工智能技術(shù)發(fā)展路徑，在機(jī)器視覺(jué)、語(yǔ)音識(shí)別等智能感知技術(shù)在性能上趨于飽和之后，下一個(gè)人工智能的突破就是自然語(yǔ)言處理等認(rèn)知決策技術(shù)。技術(shù)上形成從智能感知到認(rèn)知決策的閉環(huán)，在機(jī)器上體現(xiàn)為會(huì)理解、會(huì)思考、會(huì)分析決策，人機(jī)交互方式更加便捷，將對(duì)各行各業(yè)將產(chǎn)生顛覆式創(chuàng)新。

例如為證券投資提供各種分析數(shù)據(jù)，進(jìn)行金融風(fēng)險(xiǎn)分析、欺詐識(shí)別；在社交軟件、搜索引擎輔助文字審閱和信息查找；還可以幫助醫(yī)生檢索和分析醫(yī)學(xué)資料、輔助診斷等等。

RACE數(shù)據(jù)集

RACE數(shù)據(jù)集（ReAding Comprehension dataset collected from English Examinations）是一個(gè)來(lái)源于中學(xué)考試題目的大規(guī)模閱讀理解數(shù)據(jù)集，包含了大約28000個(gè)文章以及近100000個(gè)問(wèn)題。

它的形式類似于英語(yǔ)考試中的閱讀理解（選擇題），給定一篇文章，通過(guò)閱讀并理解文章（Passage），針對(duì)提出的問(wèn)題（Question）從選項(xiàng)中選擇正確的答案（Answers）。

RACE數(shù)據(jù)集的難點(diǎn)在于，該題型的正確答案并不一定直接體現(xiàn)在文章中，只能從語(yǔ)義層面深入理解文章，通過(guò)分析文中線索并基于上下文推理，選出正確答案。

相對(duì)以往的抽取類閱讀理解，算法要求更高，被認(rèn)為是“深度閱讀理解”。

DCMN模型

針對(duì)這種“深度閱讀理解”，云從科技與上海交通大學(xué)首創(chuàng)了一種P、Q、與A之間的匹配機(jī)制，稱為Dual Co-Matching Network（簡(jiǎn)稱DCMN），并基于這種機(jī)制探索性的研究了P、Q、與A的各種組合下的匹配策略。

01 DCMN匹配機(jī)制

以P與Q之間的匹配為例：

本圖為P與Q之間的DCMN匹配框架

云從科技和上海交大使用目前NLP最新的研究成果BERT分別為P和Q中的每一個(gè)Token進(jìn)行編碼?；贐ERT的編碼，可以得到的編碼是一個(gè)包含了P和Q中各自上下文信息的編碼，而不是一個(gè)固定的靜態(tài)編碼，如上圖中Hp與Hq；

其次，通過(guò)Attention的方式，實(shí)現(xiàn)P和Q的匹配。具體來(lái)講，是構(gòu)建P中的每一個(gè)Token在Q中的Attendances，即Question-Aware的Passage，如上圖中Mp。這樣得到的每一個(gè)P的Token編碼，包含了與Question的匹配信息；

為了充分利用BERT帶來(lái)的上下文信息，以及P與Q匹配后的信息，將P中每個(gè)Token的BERT編碼Hp，與P中每個(gè)Token與Q匹配后的編碼Mp進(jìn)行融合，對(duì)Hp和Mp進(jìn)行了元素減法及乘法操作，通過(guò)一個(gè)激活函數(shù)，得到了P與Q的最終融合表示，圖中表示為Spq；

最后通過(guò)maxpooling操作得到Cpq，l維向量，用于最后的loss計(jì)算。

02 各種匹配策略研究

除了P與Q之間的匹配之外，還可以有Q與A、P與A之間的匹配，以及不同匹配得到的匹配向量間的組合，這些不同的匹配與組合構(gòu)成了不同的匹配策略。對(duì)七種不同的匹配策略分別進(jìn)行了試驗(yàn)，以找到更加合適的匹配策略，分別是：

[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]

“PA”表示先將P和A連接為一個(gè)序列，再參與匹配，“PQ”與“QA”同理。符號(hào)“[ ; ]”表示將多種匹配的結(jié)果組合在一起。

[P_Q; P_A; Q_A]模式下的模型架構(gòu)

7種不同策略經(jīng)試驗(yàn)后，得出采用PQ_A的匹配策略，即先將P與Q連接，然后與A匹配，無(wú)論是在初中題目(RACE-M)、高中題目(RACE-H)還是整體(RACE)，都得到了更優(yōu)的結(jié)果。

雖然目前機(jī)器在一些閱讀理解數(shù)據(jù)集上的水平已經(jīng)超過(guò)了人類，但這并不能表明“機(jī)器打敗了人類”，對(duì)于自然語(yǔ)言處理、對(duì)于人工智能，我們?nèi)杂幸淮蟛叫枰斑M(jìn)。

原

機(jī)器閱讀理解（machine comprehension）

2018年03月14日 17:09:36 guoyuhaoaaa 閱讀數(shù)：5881

本篇博客主要參考了2017年的在ICLR會(huì)議上發(fā)表的論文《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》。

總結(jié)

以上是生活随笔為你收集整理的机器阅读理解首次超越人类！云从刷新自然语言处理新纪录的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：阿里P8高级架构师教你如何通过BAT面试
下一篇：简单Nlp分析套路，获取数据（爬虫），数