日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP 笔记: 序列标注与BIO标注

發布時間:2025/4/5 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP 笔记: 序列标注与BIO标注 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 序列標注

序列標注(Sequence labeling)NLP問題中的基本問題。在序列標注中,我們想對一個序列的每一個元素標注一個標簽。一般來說,一個序列指的是一個句子,而一個元素指的是句子中的一個詞。

1.1 原始標注與聯合標注

序列標注一般可以分為兩類:

1、原始標注(Raw labeling):每個元素都需要被標注為一個標簽。

2、聯合標注(Joint segmentation and labeling):所有的分段被標注為同樣的標簽。

2 命名實體識別 NER (named entity recognition)

????????命名實體識別(Named entity recognition, NER)是信息提取問題的一個子任務,需要將元素進行定位和分類,如人名、組織名、地點、時間、質量等。

舉個NER和聯合標注的例子。一個句子為:Yesterday , George Bush told a lie. 其中包括一個命名實體:George Bush。我們希望將標簽“人名”標注到整個短語“George Bush”中,而不是將兩個詞分別標注。這就是聯合標注。

2.1 BIO 標注

? ? ? ? 如果不想用聯合標注進行NER的話,可以使用BIO標注

? ? ? ? BIO標注:將每個元素標注為“B-X”、“I-X”或者“O”。

  • “B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭
  • “I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置
  • “O”表示不屬于任何類型。

2.1.1 BIO標注舉例

?比如,我們將 X 表示為名詞短語(Noun Phrase, NP),則BIO的三個標記為:

(1)B-NP:名詞短語的開頭

(2)I-NP:名詞短語的中間

(3)O:不是名詞短語

?? 因此可以將一段話劃分為如下結果;

?? ? 我們可以進一步將BIO應用到NER中,來定義所有的命名實體(人名、組織名、地點、時間等),那么我們會有許多 B 和 I 的類別,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下結果:

?

總結

以上是生活随笔為你收集整理的NLP 笔记: 序列标注与BIO标注的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。