日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

无需人工!无需训练!构建知识图谱 BERT一下就行了!

發(fā)布時間:2024/7/5 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 无需人工!无需训练!构建知识图谱 BERT一下就行了! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文:Sherry

今天給大家?guī)淼氖且黄柗Q可以自動建立知識圖譜的文章《Language Models are Open Knowledge Graphs》,文中提出了一個叫Match and Map(MAMA)的模型,無需人工!無需訓練!只需語料和預訓練好模型,就可以從頭建立出知識圖譜,甚至可以挖掘出人類發(fā)現不了的新關系。當Wikipedia再次邂逅BERT,知識圖譜就誕生啦!

通常來說知識圖譜的建立需要人工定義好的關系或者是實體類別,然后基于這些我們稱之為schema的骨架進行建立整個圖譜。而傳統(tǒng)的自動識別關系及實體的方法大都基于訓練。而MAMA就不一樣了,它就像媽媽一樣可以幫我們實現全自動圖譜建立:

  • 不需要人工定義的schema,而是依靠開放實體抽取和開放關系抽取的方法去建立圖譜。

  • 不需要在開放關系抽取或者實體抽取的任務上訓練,而僅僅依靠預訓練模型就可以完成建立知識圖譜的整個過程。

  • 模型不針對一個單一的關系逐條分析,一次喂給MAMA整個段落,她就回報給你所有triple

到底是怎么做到的呢?

開放知識圖譜

想要建立MAMA,我們先回顧一下知識圖譜中都有哪些基本元素:(熟悉知識圖譜的同學們可以跳過這部分)知識圖譜,我們想要把大量的非結構化的知識(一般是大量的網頁及其中的文本)轉化成結構化的圖結構,那我們的基本結構中既要有知識也要有圖。目前,知識圖譜中一共儲存兩類知識:一類是實體,一般是諸如人名地名這類的名詞;另外一類是這些實體之間的關系,比如出生地,職業(yè)。有了知識,我們只需要把它建立成圖結構,那么把實體看成圖中的點,關系看成圖中的邊就可以了。開放知識圖譜一般用三元組(起始實體,關系,結束實體)來表示邊,所有邊都被以這個形式儲存之后圖譜就建立好啦。

MAMA怎樣構建圖譜呢?

要構建知識圖譜第一步是獲取基本原料:一個清洗好的語料庫和一個預訓練模型。?文中直接采用了維基百科作為語料,預訓練模型則直接用發(fā)布的模型就可以了。

接下來關鍵的一步是自動抽取三元組,也是本文的主要貢獻點。?實體抽取的技術已經相對成熟,給定一個語料中的段落,我們先用開源工具抽取出它的所有實體,來構成我們可能建立的關系候選。我們按照他們在句子中出現的順序,分為頭實體和尾實體。然后重點來了!我們利用BERT這類預訓練模型的注意力權重來提取實體間的關系。

對于一個(頭實體,尾實體)對,我們用Beam search的方法從一個頭實體出發(fā)生成一個到尾實體的序列。比如圖中從Dylan出發(fā),以songwriter結束。對于每一位置,我們看注意力權重矩陣里attend到這個實體的這一列,并且只關注在句子中當前位置之后的token的注意力權重,選擇權重最大的下一個token加入當前序列。例子中從Dylan出發(fā)選擇了is這個token,然后重復之前的操作,下一個我們選到了songwriter,那么搜索結束,我們就得到了一個(Dylan,is, songwriter)的序列。聰明的小伙伴們已經發(fā)現了,這樣提取出來的序列不就是我們想要的三元組嗎?沒錯!我們再加上一些修修補補,MAMA就可以為我們完成構建圖譜的工作啦!

按上面這樣選出來的序列雖然可以簡要表示我們所需要的信息,但它還不是嚴格意義上的關系三元組——我們有可能提取出多個token作為關系,文中針對這個問題對關系提取加入了一些限制:

  • 首先,我們只保留注意力權重和大于閾值的序列。這是為了防止BERT這類模型單純地提取出符合語言模型的序列,而不是那些對實體有特殊意義的關系。

一個反例:在閾值篩選之前,模型會從句子 Rolling Stone wrote: “No other pop song has so thoroughly challenged artistic conventions” 中抽取關系(Rolling Stone, wrote, pop song)

  • 提取出來的關系必須在整個語料中出現足夠多的次數。這樣是為了防止出現一些過于細節(jié)偏門的關系。

例如 (Dylan, signed to Sam Peckinpah’s film, Pat Garrett and Billy the Kid),這里的關系特指簽約了Sam Peckinpah的電影,非常罕見且缺乏泛化性。

  • 關系序列必須是句子中出現的連續(xù)token。這樣可以防止提取出沒有意義的關系。

例如(Rolling Stone, wrote challenged, conventions),這里wrote 和chanllanged不表示合理的關系。

現在,我們就已經可以用MAMA從語料庫中建立一個知識圖譜啦!

MAMA效果如何?

為了方便和其他方法比較,我們需要把這個開放圖譜和已有的數據集對應上。使用已經比較成熟的實體鏈接,關系映射方法就可以了。

這樣造出來的MAMA無論在準確率還是召回率上都超過了之前的方法。

除了那些可以被對應到人造數據集中的關系之外,MAMA的一大亮點在于她可以發(fā)現其他沒有被schema預先定義的關系:

圖中藍色的關系是在預定義schema中出現的部分,MAMA額外還生成了33%的新關系(黃色)。其中像Dylan和其他歌手曾經合作過,曾經是某個樂隊的成員等,這樣的信息是人工schema中所沒有的,但對于歌手來說卻是很重要。如果可以自動完善知識圖譜和schema的構建,那就解決了KG中很難窮盡所有關系的難題了。

一些評價

個人認為,MAMA的整體思想還是很新穎且值得借鑒的。但是實驗部分以及一些細節(jié)上的設置還需要更精細的設置。一大缺陷在于他沒有和其他的SOTA進行比較,效果尚未可知??傮w來說,為自動化的知識圖譜構建提供了一個不錯的思路。

論文鏈接:
https://arxiv.org/pdf/2010.11967.pdf

講解視頻:
https://www.youtube.com/watch?v=NAJOZTNkhlI&t=276s

萌屋作者:Sherry。

本科畢業(yè)于復旦數院,轉行NLP目前在加拿大滑鐵盧大學讀CS PhD。經歷了從NOIer到學數學再重回CS的轉變,卻堅信AI的未來需要更多來數學和自認知科學的理論指導。主要關注問答,信息抽取,以及有關深度模型泛化及魯棒性相關內容。

作品推薦:

  • Google Cloud TPUs支持Pytorch框架啦!

  • 后臺回復關鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    有頂會審稿人、大廠研究員、知乎大V和妹紙

    等你來撩哦~

    創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的无需人工!无需训练!构建知识图谱 BERT一下就行了!的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。