日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱能否拯救NLP的未来?

發(fā)布時(shí)間:2024/7/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识图谱能否拯救NLP的未来? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | Luke@知乎

知識(shí)圖譜是NLP的未來嗎?

2021年了,不少當(dāng)年如日中天技術(shù)到今天早已無人問津,而知識(shí)圖譜這個(gè)AI界的大IP最火的時(shí)候應(yīng)該是18,19年,彼時(shí)上到頭部大廠下到明星創(chuàng)業(yè)公司都在PR自己圖譜+NLP布局能夠賦予AI認(rèn)知能力。到了當(dāng)下這個(gè)AI總體降溫的時(shí)間節(jié)點(diǎn),我們是時(shí)候冷靜思考知識(shí)圖譜的未來到底該何去何從了。

回到這個(gè)問題本身:知識(shí)圖譜是否是NLP的未來呢?

我的看法:知識(shí)圖譜不是NLP的未來,因?yàn)橹R(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識(shí)圖譜是最有可能長(zhǎng)期和NLP互利共生的技術(shù)。

那么,知識(shí)圖譜和NLP到底是什么關(guān)系呢?直覺上看,機(jī)器學(xué)習(xí)可以類比我們?nèi)祟悓W(xué)習(xí)。回顧一下我們自己的學(xué)習(xí)過程,大腦和感官主要負(fù)責(zé)信息獲取、處理、分析、決策。對(duì)于簡(jiǎn)單問題或少數(shù)天才,接受到信息后,只需要在大腦中思考一遍即可得出結(jié)論。但是對(duì)于復(fù)雜問題,比如工作匯報(bào)或期末考試,只靠大腦很難記住所有信息,這個(gè)時(shí)候,很多人都會(huì)選擇將一些加工過的結(jié)構(gòu)化或半結(jié)構(gòu)化的知識(shí)整理成筆記,方便需要的時(shí)候快速回顧。

發(fā)現(xiàn)了嗎?大腦的角色非常類似NLP以及其他ML技術(shù),而筆記幾乎就是KG的靈感來源。具體來說,NLP在圖譜構(gòu)建過程中舉足輕重,而圖譜又通過引入知識(shí)的方式反哺NLP。

不少證據(jù)已經(jīng)表明諸如Bert之類的預(yù)訓(xùn)練語言模型本身已經(jīng)存儲(chǔ)了知識(shí),就像我們的大腦中也存在一些關(guān)鍵記憶一樣,但它不可能將所有現(xiàn)實(shí)世界中的事實(shí)全部?jī)?nèi)化,猶如人腦不可能記住所有見過的東西一樣,而知識(shí)圖譜通過引入知識(shí)能緩解NLP的學(xué)習(xí)壓力。另一個(gè)嚴(yán)重的問題是,由于NLP技術(shù)目前遠(yuǎn)沒有人腦智能,模型在訓(xùn)練中記住的知識(shí)實(shí)際上是不可控的(此處可以圍觀隔壁的AI偏見問題[1]),這對(duì)NLP技術(shù)的落地應(yīng)用是一個(gè)需要考慮的風(fēng)險(xiǎn),而在可解釋性方面,知識(shí)圖譜是Bug級(jí)的存在。

知識(shí)圖譜如何賦能NLP技術(shù)?

NLP技術(shù)如何賦能圖譜構(gòu)建的資料很多,知識(shí)圖譜落地應(yīng)用近些年也是進(jìn)展地如火如荼,但,知識(shí)圖譜如何賦能NLP技術(shù)這個(gè)話題聊的人卻不太多。

我自己總結(jié)了最近幾年KG賦能NLP技術(shù)的一些打法,歡迎補(bǔ)充~

預(yù)訓(xùn)練中引入知識(shí)

代表工作:

ERNIE[2],使用短語和實(shí)體mask策略在中文NLP任務(wù)上取得了較好的效果,其中短語和實(shí)體來自KG

圖2. ERNIE

K-BERT[3],預(yù)訓(xùn)練過程中注入相關(guān)的KG三元組,為模型配備領(lǐng)域知識(shí),提高模型在特定領(lǐng)域任務(wù)上的性能,同時(shí)降低大規(guī)模預(yù)訓(xùn)練成本。

圖3. K-BERT

信息抽取中做遠(yuǎn)程監(jiān)督

用KG對(duì)齊文本做遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)是信息抽取領(lǐng)域的大殺器,能夠有效降低人工標(biāo)注成本,可以將實(shí)體抽取、關(guān)系抽取、事件抽取等子任務(wù)一網(wǎng)打盡,用過的小伙伴都說好。

圖4. 遠(yuǎn)程監(jiān)督

實(shí)體鏈接中引入實(shí)體信息

實(shí)體鏈接,就是把文本中的mention鏈接到KG里的entity的任務(wù)。如下圖所示[4]:

圖5. 實(shí)體鏈接

顯然,KG中的實(shí)體信息,如實(shí)體描述、實(shí)體屬性、實(shí)體embedding以及實(shí)體間關(guān)系等都是該任務(wù)的關(guān)鍵特征,想深入了解的朋友請(qǐng)移步[4]。

文本生成中融合知識(shí)

通過知識(shí)圖譜中的顯示事實(shí)來指導(dǎo)生成文本是實(shí)現(xiàn)可控文本生成的一個(gè)重要方向,如下所示[5]:

圖6. 文本生成

具體大致分為4種較為典型的方式[6]:

  • 多任務(wù)學(xué)習(xí)(生成+文本蘊(yùn)含)

  • 基于knowledge graph 的文本生成

  • 基于memory network 的文本生成

  • 結(jié)合分布-采樣進(jìn)行文本生成

想詳細(xì)了解的朋友請(qǐng)移步[6]。

語義匹配中引入關(guān)鍵詞信息

在深度語義匹配任務(wù)中,有人發(fā)現(xiàn),通過文本中關(guān)鍵詞之間的交互即可較為容易的找到匹配對(duì)象,與其他詞匯關(guān)系不大[7][8]。

圖7. 語義匹配case?

因此,考慮通過從KG中引入特定領(lǐng)域的關(guān)鍵詞表,然后在建模時(shí)highlight關(guān)鍵詞的重要度,從而達(dá)到更好的效果[8]。

圖8. 關(guān)鍵字注意力機(jī)制

后臺(tái)回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)

獲取ACL、CIKM等各大頂會(huì)論文集!

?

[1]AI的偏見:機(jī)器就是絕對(duì)理性的么?https://baijiahao.baidu.com/s?id=1684480115111405061&wfr=spider&for=pc

[2]ERNIE: Enhanced Representation through Knowledge Integration https://arxiv.org/pdf/1904.09223.pdf

[3]K-BERT: Enabling Language Representation with Knowledge Graph https://arxiv.org/pdf/1909.07606.pdf

[4]ab【知識(shí)圖譜】實(shí)體鏈接:一份“由淺入深”的綜述 - Nicolas的文章 - 知乎 https://zhuanlan.zhihu.com/p/100248426

[5]Text Generation from Knowledge Graphs with Graph Transformers https://arxiv.org/pdf/1904.02342v1.pdf

[6]ab文本生成12:4種融合知識(shí)的text generation(推薦收藏) - 林小平的文章 - 知乎 https://zhuanlan.zhihu.com/p/133266258

[7]騰訊專注關(guān)鍵詞的深度語義匹配模型 https://blog.csdn.net/qq_27590277/article/details/113777978

[8]abKeyword-Attentive Deep Semantic Matching https://arxiv.org/abs/2003.11516

總結(jié)

以上是生活随笔為你收集整理的知识图谱能否拯救NLP的未来?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。