日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

知识图谱(四)——实体识别和扩展

發布時間:2025/3/19 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识图谱(四)——实体识别和扩展 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實體是知識圖譜的基本單元,也是文本中承載信息的重要語言單位。

按照國際公開評測(automatic content extraction, ACE)的定義,在文本中對實體的引用(entity mention,或稱“指稱項”)可以有三種形式:命名性指稱、名詞性指稱和代詞性指稱。

  • 例如:[中國]乒乓球男隊主教練][劉國梁]出席了會議,[他]指出了當前經濟工作的重點。
    • 實體概念“劉國梁”的指稱項有三個,
    • 其中,“中國乒乓球男隊主教練”是名詞性指稱,“劉國梁”是命名性指稱,“他”是代詞性指稱
    • 這里主要研究命名性實體

文章目錄

  • 一、實體識別
    • 1、任務概述
      • (1)實體識別的難點(七小類為例)
      • (2)命名實體識別方法
    • 2、基于規則的實體識別方法
    • 3、基于機器學習的實體識別
      • (1)基于特征的方法
      • (2)基于特征的方法——基于條件隨機場的命名實體識別
      • (2)基于神經網絡的方法
  • 二、細粒度實體識別
    • 1、任務概述
      • (1)典型的細粒度實體類別分類
      • (2)細粒度實體類別的特點
      • (3)細粒度實體類別的難點
      • (4)細粒度實體類別的制定
    • 2、細粒度實體識別方法
  • 三、實體擴展
    • 1、任務概述
    • 2、實體擴展方法
      • (1)基于模板的實體抽取
      • (2)基于統計的實體抽取
        • a、基于上下文相似度的方法
        • b、融合模板與上下文相似度的方法
      • (3)種子處理
      • (4)結果過濾

一、實體識別

1、任務概述

命名實體識別:識別出文本中實體的命名性指稱項,標注其類別。

  • 三大類:實體類,時間類,數字類
  • 七小類:人名,地名,組織名,時間,日期,貨幣和百分比

(1)實體識別的難點(七小類為例)

時間,日期,貨幣和百分比的構成有比較明顯的規律,識別起來相對容易;人名、地名和機構名用字靈活,識別的難度也大。這里指的是這三類的識別。

命名實體識別的過程,通常包括兩部分:

  • 識別實體邊界
  • 確定實體類別(人名、地名和機構名等)

命名實體識別的難點

  • 命名實體形式多變:內部結構復雜,對中文來說尤其如此
    • 人名:包含姓氏和名,姓的用字是有限制的,但是名的用法靈活。還有很大其他的形式,使用字號代替人,姓+前綴/后綴以及職務名代替人。如杜甫,杜子美,子美是同一個人,李杜則是一個簡稱。
    • 地名:若干個字組成,可能包括作為后綴的關鍵字。也有一些簡稱。如:湖北,湖北省,鄂
    • 機構名:
      • 包含命名性成分,修飾性成分,表示地名的成分以及關鍵詞成分。eg:北京百得投資咨詢公司;
      • 機構名嵌套子機構名,eg:北京大學附屬小學
      • 簡稱形式,eg:中國奧委會
  • 命名實體的語言環境復雜:在不同語境下可能就不是實體
    • 人名:彩霞,有時是人名,有時是自然現象
    • 地名:河南,有的是省名,有的是泛指
    • 機構名:新世界,有時是機構名,有時是短語
  • 漢語命名實體識別 vs. 英語命名實體識別:
    • 漢語文本沒有類似英文文本空格之類的顯示標示詞邊界的標示符,分詞與命名實體識別相互影響;
    • 英文命名實體往往首字母大寫

(2)命名實體識別方法

  • 基于規則的方法
    • 優點:準確率較高、接近人的思考方式、表示直觀、易于推理
    • 缺點:成本昂貴、規則定制依賴語言學家和領域專家、難移植到新領域
  • 基于機器學習的方法
    • 優點:更健壯和靈活、比較客觀、不需要人工干預和領域知識
    • 缺點:需要人工標注數據、數據稀疏、搜索空間大(會導致巨大的空間開銷,影響效率)

2、基于規則的實體識別方法

基本思路:首先可以定制簡單的基本規則,然后在各種語料庫中,通過對基于規則方法的實驗結果進行錯誤分析,不斷改進規則,最后直到識別出更多更準的命名實體為止。

基于命名實體詞典的方法:采用字符串完全匹配或部分匹配的方式

  • 基于正向最大匹配的方法
  • 基于逆向最大匹配的方法
  • 基于最短路徑的方法
    缺點:人力物力(專家)、多規則可能存在沖突(解決:優先級排序,但不具有通用性)

3、基于機器學習的實體識別

基本思想:利用預先標注好的語料訓練模型,使模型學習到某個字或詞作為命名實體組成部分的概率,進而計算一個候選字段作為命名實體的概率值。若大于某一閾值,則識別為實體。

優點:魯棒性好、模型構建代價較小

(1)基于特征的方法

機器學習模型 + 人工設計的大量特征(充分發現和利用實體所在的上下文特征和實體的內部特征,包括詞形、詞性、角色特征等)

常用模型:語言模型、HMM模型、最大熵模型、錯誤驅動的學習方法、決策樹方法、DL-CoTrain和CoBoost等
根據具體任務和需求選擇合適的模型,也可是集成學習

流程:特征選擇=》模型學習=》樣本預測=》后處理(eg:合并標簽)

最廣泛應用的方法:基于字標注的模型,該類模型將命名實體識別看作一個序列標注的任務。最具代表性的是基于條件隨機場的模型

(2)基于特征的方法——基于條件隨機場的命名實體識別

(2)基于神經網絡的方法

主要步驟:

  • 特征表示:設計和搭建神經網絡模型并利用其將文字符號表示為分布式特征信息;
  • 模型訓練:利用標注數據,優化網絡參數,訓練網絡模型;
  • 模型分類:利用訓練的模型對新樣本進行分類,進而完成實體識別

典型方法:LSTM+CRF模型

  • 特征表示:主要利用雙向的LSTM對文本中的字和詞進行特征表示。
  • 模型訓練:將每個字的表示獲得的K維向量(K為標簽的數量)進行拼接得到輸入 PPPPPP 是一個n×kn\times kn×k維的矩陣,統一作為特征輸入到CRF模型中。
  • 模型分類:利用訓練好的模型,對待分類文本進行分類。
    • 具體:利用雙向LSTM對輸入文本進行特征表示,然后將其輸入到CRF中,對句子中每個詞進行分類,整體打分(分類標簽為實體類型和BIO三種標簽的組合),最終輸出分類結果,完成實體識別

二、細粒度實體識別

細粒度實體識別,包含更多知識,有助于相應任務性能的提升。

1、任務概述

(1)典型的細粒度實體類別分類

  • 自動內容抽取會議(ACE):實體分為7大類(人名、地名、機構名、武器、交通工具、行政區、設備設施)和45小類。
  • Sekine和Nobata:4個級別共計200個小類別
  • Lee:大約150個小類別的實體分類體系
  • Freebase:上千種實體類別,且動態增加的

(2)細粒度實體類別的特點

  • 類別更多:eg:植物、藥品、會議…且會出現新的類別
  • 類別具有層次結構:eg:機構可細分為學校、公司、金融機構、醫院等,醫院有可分為三甲醫院、專科醫院、社區醫院等

(3)細粒度實體類別的難點

  • 類別制定:覆蓋類別多且有層次結構的類別體系???
  • 語料標注:實體類別增多,與標注語料的難度和成本呈指數級增長。
    • 人工標注:質量高、成本高
    • 利用回標方法自動標注:速度快,有噪音
  • 實體識別方法:類別多?無語料或較少語料下的細粒度實體識別?

(4)細粒度實體類別的制定

  • 人工制定
  • 利用人工構建的詞典資源作為類別的來源。來源eg:WordNet、Freebase等
    • YAGO實體類別體系

2、細粒度實體識別方法

  • 前面介紹的實體識別方法均可使用
    • 當沒有語料標注時,利用聚類自動獲得實體集合,但無法自動獲得實體的類別標簽;
    • 當提供相應類別的實體的種子時,實體擴展方法獲取對應類別的更多實體;
    • 采用回標法獲取語料時,需要對噪音數據特別處理
  • 無監督的細粒度實體抽取系統
    • 組成:規則抽取、實體名的抽取 和 實體名的驗證

三、實體擴展

1、任務概述

定義:對于某實體類別 CCC,給定該類別的 MMM 個實體(稱為“種子實體”),一個實體擴展系統需要找出屬于類別 CCC 的其他實體。( 實體類別 CCC 是未知的)eg:輸入是“遼寧、江蘇、山東”這三個實體,輸出則應該是其他表示中國省份的實體。

目標:從海量、冗余、異構、不規范的網絡數據中大規模地抽取開放類別的命名實體,進而構建開放類別命名實體列表。

特點

  • 目標實體類別開放:目標類別未知,需要在僅僅知道該類別的若干實體(種子實體)的條件下進行實體抽取
  • 目標數據領域開放:數據不限于指定領域的文本,而是不限定領域的、海量、冗余、不規范、有噪音的多源異構數據
  • 以“抽取”代替“識別”:以抽取的方式構建目標類型實體列表

評價指標:準確率(precision)、召回率(recall)、MAP(Mean Average Precision)、P@N值、R-PREC值等

應用

  • KG中實體擴展
  • 提高問答系統性能,尤其是處理list類型問題
  • 提高垂直領域信息抽取的效果
  • 提升搜索引擎的用戶體驗
    • KG中同類實體的檢索與推薦
    • 提高查詢分析的準確率
    • 輔助文檔分類
    • 輔助用戶行為分析與廣告精準投放

2、實體擴展方法

組成:

  • 種子處理模塊:選取 或 生成 高質量的種子。 非常重要,關系到整個系統的性能。該模塊的輸入為若干種子組成的初始種子集合,輸出是高質量種子組成的集合。
  • 實體抽取模塊:從語料中抽取屬于目標類別的實體。
    • 包括:候選抽取(抽取候選實體)、打分排序(計算候選實體的置信度并對其排序)子模塊
    • 輸入為種子集合,輸出為排序后的候選實體列表
  • 結果過濾模塊:對抽取出的實體集合進行過濾。 提高候選實體列表的準確率

第一個和第三個模塊為通用模塊,不同實體擴展方法主要區別于實體抽取模塊

目前實體擴展方法,大致可分為基于模板的實體抽取基于統計的實體抽取取兩大類。

(1)基于模板的實體抽取

基本思路若目標實體與種子實體同屬于某個語義類,則它們的上下文應該符合特定的模板。 以模板為特征,計算候選實體的置信度。

此處的模板:

  • 預先定義好的指示上下位關系的語義模板,eg:such as、and other
  • 通過分析種子實體所處的上下文得到模板,eg:窗口上下文模板。
    • 思路:若目標實體與種子實體同屬于某個語義類別,則它們的上下文分布(名詞或名詞短語)應該是相似的

預定義模板的方法中,主要的假設是

  • 好的模板——在語料中出現次數頻繁
  • 好的模板——總是指示目標類別的實體
  • 好的模板——可在不需要其他知識的前提下在文本中被是被出來

典型方法:基于Booststrapping策略,反復迭代,得到更多模板

(2)基于統計的實體抽取

基本思路:使用相對粗糙的方式獲取候選(eg:語料中所有名詞或名詞短語都作為候選),分析整個語料的統計信息來得到候選的分布信息,最后計算候選實體與種子實體的分布相似度作為置信度并對候選實體進行排序。

a、基于上下文相似度的方法

基本思路:找出語料中全部名詞或名詞短語,然后分別計算它們與種子實體的相似度并找出相似實體。

關鍵影響因素:語料規模、語料質量

b、融合模板與上下文相似度的方法

適用于:處理不同來源數據時效果更為明顯。

基本思想:對不同類型的數據使用不同的抽取方法,再把不同方法得到的結果融合起來。

代表方法:融合文本和網絡列表的方法、融合網絡列表與查詢(query)的方法、多源數據融合的方法。這類

優點:這類方法引入了模板抽取的結果作為已知知識,并通過 Bootstrapping策略不斷更新已知知識, 抽取結果的準確率有很大提高。
缺點:計算量大,所選特征仍局限于上下文特征。

(3)種子處理

作用:衡量種子實體的質量,選取高質量種子

1. 典型度:代表目標語義類別的能力 2. 歧義度:是否具有不同語義 3. 覆蓋度:種子集合含有的語義信息能在多大程度上覆蓋目標語義類別的語義信息

當初始種子數量很少,則需要根據初始種子生成高質量新種子的方法

(4)結果過濾

產生錯誤候選實體原因:種子的歧義性,實體在某種語義上可能比較相似,但不會在其他語義上相似。

方法

  • 計算所有候選實體與錯誤候選實體的相似度,并排除相似度超過某個人工指定閾值的候選實體
  • 找出錯誤候選實體的特征向量(由該候選的上下文組成),并將其對應的特征從種子集特征向量中剔除。

總結

以上是生活随笔為你收集整理的知识图谱(四)——实体识别和扩展的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。