當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

词性标注学习笔记

發(fā)布時間：2023/12/16 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了词性标注学习笔记小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1 詞性標注概述?

1.1 簡介

詞性（Par-Of-Speech，Pos）是詞匯基本的語法屬性，通常也稱為詞類。詞性標注就是在給定句子中判定每個詞的語法范疇，確定其詞性并加以標注的過程。

1.2 難點

1）漢語是一種缺乏詞形態(tài)變化的語言，詞的類別不能像印歐語那樣，直接從詞的形態(tài)變化上來判別。

2）常用詞兼類現(xiàn)象嚴重，具有多個詞性的兼類詞的占比高達22.5%。而且越是常用的詞，多詞性的現(xiàn)象越嚴重。

3）詞性劃分標準不統(tǒng)一。詞類劃分粒度和標記符號等，目前還沒有一個廣泛認可的統(tǒng)一的標準。比如LDC標注語料中，將漢語一級詞性劃分為33類，而北京大學語料庫則將其劃分為26類。

4）未登錄詞問題。和分詞一樣，未登錄詞的詞性也是一個比較大的課題。

1.3?ICTCLAS漢語詞性標注集

代碼名稱說明舉例

a	形容詞	取英語形容詞adjective的第1個字母。	最/d 大/a 的/u
ad	副形詞	直接作狀語的形容詞。形容詞代碼a和副詞代碼d并在一起。	一定/d 能夠/v 順利/ad 實現(xiàn)/v 。/w
ag	形語素	形容詞性語素。形容詞代碼為a，語素代碼ｇ前面置以A。	喜/v 煞/ag 人/n
an	名形詞	具有名詞功能的形容詞。形容詞代碼a和名詞代碼n并在一起。	人民/n 的/u 根本/a 利益/n 和/c 國家/n 的/u 安穩(wěn)/an 。/w
b	區(qū)別詞	取漢字“別”的聲母。	副/b 書記/n 王/nr 思齊/nr
c	連詞	取英語連詞conjunction的第1個字母。	全軍/n 和/c 武警/n 先進/a 典型/n 代表/n
d	副詞	取adverb的第2個字母，因其第1個字母已用于形容詞。	兩側(cè)/f 臺柱/n 上/ 分別/d 雄踞/v 著/u
dg	副語素	副詞性語素。副詞代碼為d，語素代碼ｇ前面置以D。	用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 節(jié)目/n 。/w
e	嘆詞	取英語嘆詞exclamation的第1個字母。	嗬/e ！/w
f	方位詞	取漢字“方” 的聲母。	從/p 一/m 大/a 堆/q 檔案/n 中/f 發(fā)現(xiàn)/v 了/u
g	語素	絕大多數(shù)語素都能作為合成詞的“詞根”，取漢字“根”的聲母。	例如dg 或ag
h	前接成分	取英語head的第1個字母。	目前/t 各種/r 非/h 合作制/n 的/u 農(nóng)產(chǎn)品/n
i	成語	取英語成語idiom的第1個字母。	提高/v 農(nóng)民/n 討價還價/i 的/u 能力/n 。/w
j	簡稱略語	取漢字“簡”的聲母。	民主/ad 選舉/v 村委會/j 的/u 工作/vn
k	后接成分		權(quán)責/n 明確/a 的/u 逐級/d 授權(quán)/v 制/k
l	習用語	習用語尚未成為成語，有點“臨時性”，取“臨”的聲母。	是/v 建立/v 社會主義/n 市場經(jīng)濟/n 體制/n 的/u 重要/a 組成部分/l 。/w
m	數(shù)詞	取英語numeral的第3個字母，n，u已有他用。	科學技術(shù)/n 是/v 第一/m 生產(chǎn)力/n
n	名詞	取英語名詞noun的第1個字母。	希望/v 雙方/n 在/p 市政/n 規(guī)劃/vn
ng	名語素	名詞性語素。名詞代碼為n，語素代碼ｇ前面置以N。	就此/d 分析/v 時/Ng 認為/v
nr	人名	名詞代碼n和“人(ren)”的聲母并在一起。	建設(shè)部/nt 部長/n 侯/nr 捷/nr
ns	地名	名詞代碼n和處所詞代碼s并在一起。	北京/ns 經(jīng)濟/n 運行/vn 態(tài)勢/n 喜人/a
nt	機構(gòu)團體	“團”的聲母為t，名詞代碼n和t并在一起。	[冶金/n 工業(yè)部/n 洛陽/ns 耐火材料/l 研究院/n]nt
nx	字母專名		ATM/nx 交換機/n
nz	其他專名	“專”的聲母的第1個字母為z，名詞代碼n和z并在一起。	德士古/nz 公司/n
o	擬聲詞	取英語擬聲詞onomatopoeia的第1個字母。	汩汩/o 地/u 流/v 出來/v
p	介詞	取英語介詞prepositional的第1個字母。	往/p 基層/n 跑/v 。/w
q	量詞	取英語quantity的第1個字母。	不止/v 一/m 次/q 地/u 聽到/v ，/w
r	代詞	取英語代詞pronoun的第2個字母,因p已用于介詞。	有些/r 部門/n
s	處所詞	取英語space的第1個字母。	移居/v 海外/s 。/w
t	時間詞	取英語time的第1個字母。	當前/t 經(jīng)濟/n 社會/n 情況/n
tg	時語素	時間詞性語素。時間詞代碼為t,在語素的代碼g前面置以T。	秋/Tg 冬/tg 連/d 旱/a
u	助詞	取英語助詞auxiliary 的第2個字母,因a已用于形容詞。	工作/vn 的/u 政策/n
ud	結(jié)構(gòu)助詞		有/v 心/n 栽/v 得/ud 梧桐樹/n
ug	時態(tài)助詞		你/r 想/v 過/ug 沒有/v
uj	結(jié)構(gòu)助詞的		邁向/v 充滿/v 希望/n 的/uj 新/a 世紀/n
ul	時態(tài)助詞了		完成/v 了/ ul
uv	結(jié)構(gòu)助詞地		滿懷信心/l 地/uv 開創(chuàng)/v 新/a 的/u 業(yè)績/n
uz	時態(tài)助詞著		眼看/v 著/uz
v	動詞	取英語動詞verb的第一個字母。	舉行/v 老/a 干部/n 迎春/vn 團拜會/n
vd	副動詞	直接作狀語的動詞。動詞和副詞的代碼并在一起。	強調(diào)/vd 指出/v
vg	動語素	動詞性語素。動詞代碼為v。在語素的代碼g前面置以V。	做好/v 尊/vg 干/j 愛/v 兵/n 工作/vn
vn	名動詞	指具有名詞功能的動詞。動詞和名詞的代碼并在一起。	股份制/n 這種/r 企業(yè)/n 組織/vn 形式/n ，/w
w	標點符號		生產(chǎn)/v 的/u ５Ｇ/nx 、/w ８Ｇ/nx 型/k 燃氣/n 熱水器/n
x	非語素字	非語素字只是一個符號，字母x通常用于代表未知數(shù)、符號。
y	語氣詞	取漢字“語”的聲母。	已經(jīng)/d ３０/m 多/m 年/q 了/y 。/w
z	狀態(tài)詞	取漢字“狀”的聲母的前一個字母。	勢頭/n 依然/z 強勁/a ；/w

2 常見方法

2.1 基于字符串匹配的字典查找

從字典中查找每個詞語的詞性，對其進行標注。這種方法比較簡單，但是不能解決一詞多詞性的問題，因此存在一定的誤差。

2.2 基于統(tǒng)計的算法

通過機器學習模型，從數(shù)據(jù)中學習規(guī)律，進行詞性標注。此類方法可以根據(jù)詞的上下文進行詞性標注，解決一詞多詞性的問題。常見模型如HMM、CRF、神經(jīng)網(wǎng)絡(luò)等。

根據(jù)輸入的粒度，可以分為基于詞的方法，和基于字的方法。基于詞的方法需要首先對句子進行分詞，然后對分詞的結(jié)果進行詞性標注。基于字的方法把分詞和詞性標注兩個任務(wù)聯(lián)合訓練。

3 數(shù)據(jù)集、評價指標

3.1?常用數(shù)據(jù)集

賓州中文樹庫CTB 5~9
PFR人民日報標注語料庫
UD-Chinese-GSD數(shù)據(jù)集

3.2?評價指標

一般采用精確率（precision）、召回率（recall）和F1值進行測評。

基于詞的方法，可以直接計算以上三個指標。基于字的方法，只有當分詞和詞性標注同時正確時，才算標注正確。

3 論文筆記

================================================================================================

ACL 2017：Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF
================================================================================================

概述

文本提出一個基于BiRNN-CRF的中文分詞和詞性標注聯(lián)合標注模型，模型在字符的表示上進行改進，可以提供更加豐富的信息。?

模型架構(gòu)

模型的核心是傳統(tǒng)的雙向RNN加CRF架構(gòu)，RNN選用GRU。標簽體系使用BIES和詞性標簽的組合，可以在一個標簽中同時包含兩種信息（如B-DEG、I-DEG、E-DEG?）。

本文的關(guān)鍵創(chuàng)新是在字符的表示上。

1）Concatenated N-gram

首先對于每個字符，提取以該字符為中心的n-gram信息，其中m為開始位置，n為結(jié)束位置。為對應(yīng)n-gram字符串的embedding。然后把多個n-gram的進行拼接，得到該字符的表示。

2）Radicals and Orthographical Features（偏旁和字形特征）

對于漢字，偏旁包含了豐富的信息，每個偏旁使用一個embedding表示，然后拼接到該字符的表示當中。

漢字的字形也提供了重要的信息，使用兩層的CNN+Max?pooling卷積網(wǎng)絡(luò)提取字形信息，拼接到該字符的表示當中。

3）Pre-trained Character Embeddings

本文測試了使用預訓練的embedding和隨機embedding的區(qū)別。

4）Ensemble Decoding

本文測試了使用多個模型進行聯(lián)合解碼的效果。

實驗結(jié)果

特征分析

================================================================================================

IEEE 2018：A Simple and Effective Neural Model for Joint Word Segmentation and POS Tagging
================================================================================================

概述

由于中文分詞和詞性標注具有高度的關(guān)聯(lián)性，傳統(tǒng)的首先進行分詞再進行詞性標注的二階段模式會造成錯誤的累積。文本提出一個簡單高效的，基于Seq2Seq架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型，對中文分詞和詞性標注進行聯(lián)合標注。?

模型架構(gòu)

1）?Transition System

由于本模型的解碼方式參考傳統(tǒng)的Transition System，所以首先對其進行簡單介紹。Transition System主要包含兩部分：狀態(tài)（State）和動作（Action）。開始時，有一個空的開始狀態(tài)，然后通過一系列的動作逐漸改變狀態(tài)的值，直到得到一個表示最終結(jié)果的結(jié)束狀態(tài)。

通過設(shè)計一個針對分詞和詞性標注聯(lián)合解碼的Transition System，可以把解碼過程表示為一系列動作組成的序列，并使用Seq2Seq模型預測得出。系統(tǒng)包含兩類動作：1）SEP（t）：將當前字作為詞性（t）開始的第一個字放入狀態(tài)當中；2）APP：將當前字添加到狀態(tài)當中，作為當前狀態(tài)頂端的詞性所表示的字當中。具體可以參考下圖例子。

2）Seq2Seq模型

本模型包含Encoder和Decoder兩部分。

2.1）Encoder

2.1.1）Embedding Layer

本層包含字（）的unigram和bigram的Embedding，其中bigram包含正向（）和反向（）兩種。

每種Embedding又分別包含兩種類型：1）隨機初始化并隨著網(wǎng)絡(luò)訓練調(diào)整；2）使用外部數(shù)據(jù)預訓練得到并固定權(quán)重。最終的Embedding由兩種類型拼接而成。

其中使用外部數(shù)據(jù)預訓練Embedding時，考慮兩種方式：1）只使用字信息訓練的Basic Embeddings；2）結(jié)合分詞、詞性標簽訓練的Word-Context Embeddings。實驗結(jié)果表明，Word-Context Embeddings效果更好。

2.1.2）LSTM Input

Encoder由正向和反向兩個LSTM組成，所以需要分別為兩個LSTM提供輸入。輸入由unigram和對應(yīng)的bigram的Embedding拼接后，通過一個簡單的線性變換得到：

或

2.1.3）Bi-Directional LSTM

經(jīng)過輸入層，分別得到正向和反向兩部分輸入：和。然后分別輸入到兩個LSTM當中，Encoder的最終輸出由兩個LSTM的輸出拼接得到：。

2.2）Decoder

Decoder由一個基于動態(tài)解碼的詞為輸入的單向LSTM構(gòu)成。和傳統(tǒng)的Seq2Seq模型對比，本模型具有兩方面的區(qū)別。第一，由于基于Transition System的解碼系統(tǒng)自帶了注意力的屬性，所以本模型不需要顯式的注意力結(jié)構(gòu)。第二，本模型的Decoder基于動態(tài)解碼的word-level特征作為輸入，而不是原始輸入的character-level特征。

2.2.1）Word Representation

Decoder的輸入為詞列表，其中每個詞由兩部分組成：1）組成詞的每個字的Encoder輸出的組合；2）預測的詞性標簽的Embedding。

Decoder的輸入的詞可以表示為：

其中有幾種可選的計算方式：

由于Encoder的輸出由兩個方向分別組成，所以詞的表示也分別由兩個方向的組合拼接得到：

然后把詞表示和詞性標簽的Embedding拼接，通過一個簡單的線性變換得到：

2.2.2）LSTM

把輸入到單向LSTM當中，得到每一步的隱藏狀態(tài)，然后經(jīng)過兩次線性變換，得到每一步的輸出：

2.3）Training

使用交叉熵作為損失函數(shù)：

實驗結(jié)果

特征分析

1）Word Representation

2）Feature

3）Pretrain Embedding

================================================================================================

ACL 2020：Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge
================================================================================================

概述

當前的詞性標注模型只關(guān)注n-gram等上下文信息，忽略了其他語法知識。然而，句法結(jié)構(gòu)、依存關(guān)系等知識可以提供單詞之間的距離依賴信息。使用現(xiàn)成的工具自動生成的語法知識，可以對詞性標注模型起到輔助作用。本文提出一個中文分詞和詞性標注聯(lián)合標注模型，使用雙向注意機制整合每個輸入字符的上下文特征及其相應(yīng)的語法知識。

模型架構(gòu)

設(shè)輸入為，輸出為，的上下文特征為，語法知識為。每個字符對應(yīng)的特征表示為和。

1）Auto-analyzed Knowledge

人工標注的語法知識比較難以獲取，但是自動分析得到的語法知識可以通過工具生成，雖然自動生成的知識有一定噪聲，但是如果可以讓模型學習如何利用這些知識，可以有效提升模型效果。本模型通過注意力機制，從自動生成的語法知識中提取特征。

本文使用三種語法知識：1）自動生成的詞性標注標簽；2）句法結(jié)構(gòu)；3）依存關(guān)系。

1.1）自動生成的詞性標注標簽

對于每個字符?，取包含該字符的詞，以及其相鄰2個詞范圍內(nèi)的所有詞，的上下文和詞性標注標簽特征。

1.2）句法結(jié)構(gòu)

首先定義一組需要關(guān)注的句法標簽。對于每個字符?，從包含該字符的詞開始往根節(jié)點回溯，直到遇到第一個在預定義的句法標簽的詞為止，取該詞下的所有葉子節(jié)點的詞的上下文和句法標簽特征。

1.3）依存關(guān)系

對于每個字符?，取包含該字符的詞以及與其存在依存關(guān)系的所有詞的上下文和依存關(guān)系標簽特征。

2）Two-Way Attentions

之前的研究直接把上下文特征和語法知識進行拼接，容易受噪聲干擾，本模型分別使用兩個attention提取上下文和語法知識特征。以上下文特征為例，計算方式為：

其中是編碼器提取的特征，是的上下文特征中的第j項，是的embedding。

使用同樣的方式提取語法知識特征，最后把上下文和語法知識特征拼接，得到本層輸出。

3）Joint Tagging with Two-way Attentions

把編碼器和雙向注意機制提取的特征拼接后輸入到一個線性變換層，然后輸入到CRF層得到最終輸出：

實驗結(jié)果

本文測試使用Stanford CoreNLP Toolkit（SCT）和Berkeley Neural Parser（BNP）兩個工具本身進行詞性標注的結(jié)果，和基于它們提取的語法特征在本模型下的結(jié)果。

同時也對比使用Bi-LSTM、BERT、ZEN三種編碼器的結(jié)果。

特征分析

總結(jié)

以上是生活随笔為你收集整理的词性标注学习笔记的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ACM知识清单
下一篇： SWUN 1431 - 伊邪那美(Ⅱ)