日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

【信息抽取】如何使用卷积神经网络进行关系抽取

發(fā)布時間:2025/3/20 卷积神经网络 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【信息抽取】如何使用卷积神经网络进行关系抽取 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

事物、概念之間的關(guān)系是人類知識中非常重要的一個部分,但是他們通常隱藏在海量的非結(jié)構(gòu)文本中。為了從文本中抽取這些關(guān)系事實,從早期的模式匹配到近年的神經(jīng)網(wǎng)絡(luò),大量的研究在多年前就已經(jīng)展開。

然而,隨著互聯(lián)網(wǎng)的爆炸發(fā)展,人類的知識也隨之飛速的增長,因而對關(guān)系抽取(Relation Extraction, RE)提出了更高的要求,需要一個有效的RE系統(tǒng),能夠利用更多的數(shù)據(jù);有效的獲取更多的關(guān)系;高效的處理更多復雜的文本;具有較好的擴展性,能夠遷移到更多的領(lǐng)域。

本文首先介紹一種基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法。

作者&編輯 | 小Dream哥

1 導論?

在引入深度學習之前,在NLP領(lǐng)域,關(guān)系抽取最優(yōu)的方法是基于機器學習的方法。機器學習的方法依賴手動提取特征,手動提取的特征通常依賴于其他的NLP系統(tǒng)(一些NLP工具),這些工具不免會帶入錯誤,這些錯誤就會在關(guān)系抽取的任務(wù)中進行傳播。

因此,基于機器學習的關(guān)系抽取方法代價大且效果不佳。這里介紹一種比較早的應用深度卷積神經(jīng)網(wǎng)絡(luò)進行關(guān)系抽取的方法,由神經(jīng)網(wǎng)絡(luò)進行特征抽取,避免了手動的特征提取,實現(xiàn)了端到端的關(guān)系抽取。

Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao. 2014. Relation classifification via convolutional deep neural network. In Proceedings of COLING, pages 2335–2344.

2 網(wǎng)絡(luò)結(jié)構(gòu)

如上圖所示是該基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型框架圖,從圖中可知,模型的輸入是一段話,并指明了句子中的2個實體;輸出為一個特征向量,表征了這兩個實體的關(guān)系。該結(jié)構(gòu)主要分為3個部分:詞嵌入、特征抽取以及輸出。

1)詞嵌入(Word Representation)

詞嵌入就是目前NLP領(lǐng)域最普通的詞嵌入,每一個輸入詞語轉(zhuǎn)化成一個固定維度的向量。這個向量是從預先訓練好的詞向量字典中查找得到,這份詞向量字典中的詞向量表征了詞之間的語義關(guān)系。

2) 特征抽取層

鑒于關(guān)系分類是一個復雜的任務(wù),模型需要學習實體的詞語級特征和整個句子的語義級別的特征,才能完成關(guān)系的分類。

因此模型的特征抽取包括兩個部分,詞語級特征抽取和句子級特征抽取。詞語級的特征抽取提取局部的詞語級的信息,句子級的特征抽取提取全局的語義信息,二者結(jié)合提高模型的準確性。

1.詞語級特征抽取(Lexical Level Features)

如上圖所示,詞語級特征包括3個部分,

? ? 第一部分是詞語(待分類的實體)本身;

? ? 第二部分是詞語左右的詞;

? ? 第三部分是詞語的上位詞,通過wordNet獲取得到。

這三個部分的通過詞嵌入之后,拼接在一起就構(gòu)成了詞語級的特征。

2.句子級特征抽取(Sentence Level Features)

詞向量雖然能夠一點程度的表征詞語之間的關(guān)系及相似度,但是在關(guān)系抽取任務(wù)中,通常需要在當前語境的關(guān)系下學習兩個詞之間的關(guān)系。有時候兩個詞語之間的距離還會比較遠,這就需要模型要能夠表征長距離的特征及語義特征

為此,模型設(shè)計了一個Convolution層,用于句子級的語義特征抽取。

首先,Convolution層的輸入包括兩個部分,Word Feature和Position feature。

Word Feature是由一定大小的窗口,拼接起來的特征。假設(shè),輸入序列經(jīng)過詞嵌入之后的序列為(X1,X2,...Xn),假設(shè)窗口的大小為3,則Word Feature構(gòu)建成這樣:

? ? ? ? ? {[Xs,X1,X2],[X1,X2,X3],...[Xn-1,Xn,Xe]}

通過這種方式,能夠一定程度的提取句子的局部特征。但是全局特征,仍需要其他模塊來提取。

模型中的Position feature是相對距離,記錄的是當前詞與兩個待預測實體之間的相對距離,PF=[d1, d2],并且初始化成一定維度的向量。

最后將兩種特征拼接起來X=[WF,PF]構(gòu)成句子級特征抽取的輸入。

隨后的Convolution層非常的簡單,主要包括如下的3步:

第一步,線性變換:

第二步,最大層池化:

池化的維度是序列延展的方向。通過最大層池化,提取出最有效的特征。

第三步,激活函數(shù):

3) 輸出層

將詞語級特征和句子級特征拼接起來,[Y,g],接一個全連接層,獲得模型的特征向量O,最后再接一個softmax層,輸出兩個詞屬于預定義關(guān)系類別的概率。

模型訓練采用常用的隨機梯度下降和方向傳播算法,這里就不再贅述。

總結(jié)

本文介紹了一種基于深度學習的關(guān)系抽取的方法,這是用深度學習處理關(guān)系抽取任務(wù)最早的工作之一了,避免了早期用機器學習方法的人工特征提取,取得了當時最好的效果。

用現(xiàn)在的眼光來看這個模型,可能覺得稍顯“粗陋”,例如,局部特征和全局特征分開抽取,簡陋的卷積網(wǎng)絡(luò)、最大池化的操作值得商榷。但看看早期的工作能夠更好的理解目前的NLP工作,更深刻的理解目前的BERT等新工作的做法。

下期預告:基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

知識星球推薦

掃描上面的二維碼,就可以加入我們的星球,助你成長為一名合格的自然語言處理算法工程師。

知識星球主要有以下內(nèi)容:

(1) 聊天機器人。

(2) 知識圖譜。

(3) NLP預訓練模型。

轉(zhuǎn)載文章請后臺聯(lián)系

侵權(quán)必究

往期精選

  • 【完結(jié)】 12篇文章帶你完全進入NLP領(lǐng)域,掌握核心技術(shù)

  • 【年終總結(jié)】2019年有三AI NLP做了什么,明年要做什么?

  • 【NLP-詞向量】詞向量的由來及本質(zhì)

  • 【NLP-詞向量】從模型結(jié)構(gòu)到損失函數(shù)詳解word2vec

  • 【NLP-NER】什么是命名實體識別?

  • 【NLP-NER】命名實體識別中最常用的兩種深度學習模型

  • 【NLP-NER】如何使用BERT來做命名實體識別

  • 【NLP-ChatBot】我們熟悉的聊天機器人都有哪幾類?

  • 【NLP-ChatBot】搜索引擎的最終形態(tài)之問答系統(tǒng)(FAQ)詳述

  • 【NLP-ChatBot】能干活的聊天機器人-對話系統(tǒng)概述

  • 【知識圖譜】人工智能技術(shù)最重要基礎(chǔ)設(shè)施之一,知識圖譜你該學習的東西

  • 【知識圖譜】知識表示:知識圖譜如何表示結(jié)構(gòu)化的知識?

  • 【知識圖譜】如何構(gòu)建知識體系:知識圖譜搭建的第一步

  • 【知識圖譜】獲取到知識后,如何進行存儲和便捷的檢索?

  • 【知識圖譜】知識推理,知識圖譜里最“人工智能”的一段

  • 【文本信息抽取與結(jié)構(gòu)化】目前NLP領(lǐng)域最有應用價值的子任務(wù)之一

  • 【文本信息抽取與結(jié)構(gòu)化】詳聊文本的結(jié)構(gòu)化【上】

  • 【文本信息抽取與結(jié)構(gòu)化】詳聊文本的結(jié)構(gòu)化【下】

  • 【信息抽取】NLP中關(guān)系抽取的概念,發(fā)展及其展望

  • 【NLP實戰(zhàn)】tensorflow詞向量訓練實戰(zhàn)

  • 【NLP實戰(zhàn)系列】樸素貝葉斯文本分類實戰(zhàn)

  • 【NLP實戰(zhàn)系列】Tensorflow命名實體識別實戰(zhàn)

  • 【NLP實戰(zhàn)】如何基于Tensorflow搭建一個聊天機器人

  • 【NLP實戰(zhàn)】基于ALBERT的文本相似度計算

  • 【每周NLP論文推薦】從預訓練模型掌握NLP的基本發(fā)展脈絡(luò)

  • 【每周NLP論文推薦】 NLP中命名實體識別從機器學習到深度學習的代表性研究

  • 【每周NLP論文推薦】 介紹語義匹配中的經(jīng)典文章

  • 【每周NLP論文推薦】 對話管理中的標志性論文介紹

  • 【每周NLP論文推薦】 開發(fā)聊天機器人必讀的重要論文

  • 【每周NLP論文推薦】 掌握實體關(guān)系抽取必讀的文章

  • 【每周NLP論文推薦】 生成式聊天機器人論文介紹

  • 【每周NLP論文推薦】 知識圖譜重要論文介紹

  • 【NLP預訓練模型】你finetune BERT的姿勢可能不對哦?

總結(jié)

以上是生活随笔為你收集整理的【信息抽取】如何使用卷积神经网络进行关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。