日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

词性标注学习笔记

發(fā)布時間:2023/12/16 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 词性标注学习笔记 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1 詞性標注概述?

1.1 簡介

詞性(Par-Of-Speech,Pos)是詞匯基本的語法屬性,通常也稱為詞類。詞性標注就是在給定句子中判定每個詞的語法范疇,確定其詞性并加以標注的過程。

1.2 難點

1)漢語是一種缺乏詞形態(tài)變化的語言,詞的類別不能像印歐語那樣,直接從詞的形態(tài)變化上來判別。

2)常用詞兼類現(xiàn)象嚴重,具有多個詞性的兼類詞的占比高達22.5%。而且越是常用的詞,多詞性的現(xiàn)象越嚴重。

3)詞性劃分標準不統(tǒng)一。詞類劃分粒度和標記符號等,目前還沒有一個廣泛認可的統(tǒng)一的標準。比如LDC標注語料中,將漢語一級詞性劃分為33類,而北京大學語料庫則將其劃分為26類。

4)未登錄詞問題。和分詞一樣,未登錄詞的詞性也是一個比較大的課題。

1.3?ICTCLAS漢語詞性標注集

代碼名稱說明舉例
a形容詞取英語形容詞adjective的第1個字母。最/d 大/a 的/u
ad副形詞直接作狀語的形容詞。形容詞代碼a和副詞代碼d并在一起。

一定/d 能夠/v 順利/ad 實現(xiàn)/v 。/w

ag形語素形容詞性語素。形容詞代碼為a,語素代碼g前面置以A。喜/v 煞/ag 人/n
an名形詞具有名詞功能的形容詞。形容詞代碼a和名詞代碼n并在一起。人民/n 的/u 根本/a 利益/n 和/c 國家/n 的/u 安穩(wěn)/an 。/w
b區(qū)別詞取漢字“別”的聲母。副/b 書記/n 王/nr 思齊/nr
c連詞取英語連詞conjunction的第1個字母。全軍/n 和/c 武警/n 先進/a 典型/n 代表/n
d副詞取adverb的第2個字母,因其第1個字母已用于形容詞。兩側(cè)/f 臺柱/n 上/ 分別/d 雄踞/v 著/u
dg副語素副詞性語素。副詞代碼為d,語素代碼g前面置以D。用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 節(jié)目/n 。/w
e嘆詞取英語嘆詞exclamation的第1個字母。嗬/e !/w
f方位詞取漢字“方” 的聲母。從/p 一/m 大/a 堆/q 檔案/n 中/f 發(fā)現(xiàn)/v 了/u
g語素絕大多數(shù)語素都能作為合成詞的“詞根”,取漢字“根”的聲母。例如dg 或ag
h前接成分取英語head的第1個字母。目前/t 各種/r 非/h 合作制/n 的/u 農(nóng)產(chǎn)品/n
i成語取英語成語idiom的第1個字母。提高/v 農(nóng)民/n 討價還價/i 的/u 能力/n 。/w
j簡稱略語取漢字“簡”的聲母。民主/ad 選舉/v 村委會/j 的/u 工作/vn
k后接成分權(quán)責/n 明確/a 的/u 逐級/d 授權(quán)/v 制/k
l習用語習用語尚未成為成語,有點“臨時性”,取“臨”的聲母。是/v 建立/v 社會主義/n 市場經(jīng)濟/n 體制/n 的/u 重要/a 組成部分/l 。/w
m數(shù)詞取英語numeral的第3個字母,n,u已有他用。科學技術(shù)/n 是/v 第一/m 生產(chǎn)力/n
n名詞取英語名詞noun的第1個字母。希望/v 雙方/n 在/p 市政/n 規(guī)劃/vn
ng名語素名詞性語素。名詞代碼為n,語素代碼g前面置以N。就此/d 分析/v 時/Ng 認為/v
nr人名名詞代碼n和“人(ren)”的聲母并在一起。建設(shè)部/nt 部長/n 侯/nr 捷/nr
ns地名名詞代碼n和處所詞代碼s并在一起。北京/ns 經(jīng)濟/n 運行/vn 態(tài)勢/n 喜人/a
nt機構(gòu)團體“團”的聲母為t,名詞代碼n和t并在一起。[冶金/n 工業(yè)部/n 洛陽/ns 耐火材料/l 研究院/n]nt
nx字母專名ATM/nx 交換機/n
nz其他專名“專”的聲母的第1個字母為z,名詞代碼n和z并在一起。德士古/nz 公司/n
o擬聲詞取英語擬聲詞onomatopoeia的第1個字母。汩汩/o 地/u 流/v 出來/v
p介詞取英語介詞prepositional的第1個字母。往/p 基層/n 跑/v 。/w
q量詞取英語quantity的第1個字母。不止/v 一/m 次/q 地/u 聽到/v ,/w
r代詞取英語代詞pronoun的第2個字母,因p已用于介詞。有些/r 部門/n
s處所詞取英語space的第1個字母。移居/v 海外/s 。/w
t時間詞取英語time的第1個字母。當前/t 經(jīng)濟/n 社會/n 情況/n
tg時語素時間詞性語素。時間詞代碼為t,在語素的代碼g前面置以T。秋/Tg 冬/tg 連/d 旱/a
u助詞取英語助詞auxiliary 的第2個字母,因a已用于形容詞。工作/vn 的/u 政策/n
ud結(jié)構(gòu)助詞有/v 心/n 栽/v 得/ud 梧桐樹/n
ug時態(tài)助詞你/r 想/v 過/ug 沒有/v
uj結(jié)構(gòu)助詞的邁向/v 充滿/v 希望/n 的/uj 新/a 世紀/n
ul時態(tài)助詞了完成/v 了/ ul
uv結(jié)構(gòu)助詞地滿懷信心/l 地/uv 開創(chuàng)/v 新/a 的/u 業(yè)績/n
uz時態(tài)助詞著眼看/v 著/uz
v動詞取英語動詞verb的第一個字母。舉行/v 老/a 干部/n 迎春/vn 團拜會/n
vd副動詞直接作狀語的動詞。動詞和副詞的代碼并在一起。強調(diào)/vd 指出/v
vg動語素動詞性語素。動詞代碼為v。在語素的代碼g前面置以V。做好/v 尊/vg 干/j 愛/v 兵/n 工作/vn
vn名動詞指具有名詞功能的動詞。動詞和名詞的代碼并在一起。股份制/n 這種/r 企業(yè)/n 組織/vn 形式/n ,/w
w標點符號生產(chǎn)/v 的/u 5G/nx 、/w 8G/nx 型/k 燃氣/n 熱水器/n
x非語素字非語素字只是一個符號,字母x通常用于代表未知數(shù)、符號。
y語氣詞取漢字“語”的聲母。已經(jīng)/d 30/m 多/m 年/q 了/y 。/w
z狀態(tài)詞取漢字“狀”的聲母的前一個字母。勢頭/n 依然/z 強勁/a ;/w

2 常見方法

2.1 基于字符串匹配的字典查找

從字典中查找每個詞語的詞性,對其進行標注。這種方法比較簡單,但是不能解決一詞多詞性的問題,因此存在一定的誤差。

2.2 基于統(tǒng)計的算法

通過機器學習模型,從數(shù)據(jù)中學習規(guī)律,進行詞性標注。此類方法可以根據(jù)詞的上下文進行詞性標注,解決一詞多詞性的問題。常見模型如HMM、CRF、神經(jīng)網(wǎng)絡(luò)等。

根據(jù)輸入的粒度,可以分為基于詞的方法,和基于字的方法。基于詞的方法需要首先對句子進行分詞,然后對分詞的結(jié)果進行詞性標注。基于字的方法把分詞和詞性標注兩個任務(wù)聯(lián)合訓練。

3 數(shù)據(jù)集、評價指標

3.1?常用數(shù)據(jù)集

  • 賓州中文樹庫CTB 5~9
  • PFR人民日報標注語料庫
  • UD-Chinese-GSD數(shù)據(jù)集

3.2?評價指標

一般采用精確率(precision)、召回率 (recall)和F1值進行測評。

基于詞的方法, 可以直接計算以上三個指標。基于字的方法,只有當分詞和詞性標注同時正確時,才算標注正確。

3 論文筆記

================================================================================================

ACL 2017:Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF
================================================================================================

概述

文本提出一個基于BiRNN-CRF的中文分詞和詞性標注聯(lián)合標注模型,模型在字符的表示上進行改進,可以提供更加豐富的信息。?

模型架構(gòu)

模型的核心是傳統(tǒng)的雙向RNN加CRF架構(gòu),RNN選用GRU。標簽體系使用BIES和詞性標簽的組合,可以在一個標簽中同時包含兩種信息(如B-DEG、I-DEG、E-DEG?)。

本文的關(guān)鍵創(chuàng)新是在字符的表示上。

1)Concatenated N-gram

首先對于每個字符,提取以該字符為中心的n-gram信息,其中m為開始位置,n為結(jié)束位置。為對應(yīng)n-gram字符串的embedding。然后把多個n-gram的進行拼接,得到該字符的表示。

2)Radicals and Orthographical Features(偏旁和字形特征)

對于漢字,偏旁包含了豐富的信息,每個偏旁使用一個embedding表示,然后拼接到該字符的表示當中。

漢字的字形也提供了重要的信息,使用兩層的CNN+Max?pooling卷積網(wǎng)絡(luò)提取字形信息,拼接到該字符的表示當中。

3)Pre-trained Character Embeddings

本文測試了使用預訓練的embedding和隨機embedding的區(qū)別。

4)Ensemble Decoding

本文測試了使用多個模型進行聯(lián)合解碼的效果。

實驗結(jié)果

特征分析

?

?

================================================================================================

IEEE 2018:A Simple and Effective Neural Model for Joint Word Segmentation and POS Tagging
================================================================================================

概述

由于中文分詞和詞性標注具有高度的關(guān)聯(lián)性,傳統(tǒng)的首先進行分詞再進行詞性標注的二階段模式會造成錯誤的累積。文本提出一個簡單高效的,基于Seq2Seq架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,對中文分詞和詞性標注進行聯(lián)合標注。?

模型架構(gòu)

1)?Transition System

由于本模型的解碼方式參考傳統(tǒng)的Transition System,所以首先對其進行簡單介紹。Transition System主要包含兩部分:狀態(tài)(State)和動作(Action)。開始時,有一個空的開始狀態(tài),然后通過一系列的動作逐漸改變狀態(tài)的值,直到得到一個表示最終結(jié)果的結(jié)束狀態(tài)。

通過設(shè)計一個針對分詞和詞性標注聯(lián)合解碼的Transition System,可以把解碼過程表示為一系列動作組成的序列,并使用Seq2Seq模型預測得出。系統(tǒng)包含兩類動作:1)SEP(t):將當前字作為詞性(t)開始的第一個字放入狀態(tài)當中;2)APP:將當前字添加到狀態(tài)當中,作為當前狀態(tài)頂端的詞性所表示的字當中。具體可以參考下圖例子。

?

2)Seq2Seq模型

本模型包含Encoder和Decoder兩部分。

2.1)Encoder

2.1.1)Embedding Layer

本層包含字()的unigram和bigram的Embedding,其中bigram包含正向()和反向()兩種。

每種Embedding又分別包含兩種類型:1)隨機初始化并隨著網(wǎng)絡(luò)訓練調(diào)整;2)使用外部數(shù)據(jù)預訓練得到并固定權(quán)重。最終的Embedding由兩種類型拼接而成。

其中使用外部數(shù)據(jù)預訓練Embedding時,考慮兩種方式:1)只使用字信息訓練的Basic Embeddings;2)結(jié)合分詞、詞性標簽訓練的Word-Context Embeddings。實驗結(jié)果表明,Word-Context Embeddings效果更好。

2.1.2)LSTM Input

Encoder由正向和反向兩個LSTM組成,所以需要分別為兩個LSTM提供輸入。輸入由unigram和對應(yīng)的bigram的Embedding拼接后,通過一個簡單的線性變換得到:

2.1.3)Bi-Directional LSTM

經(jīng)過輸入層,分別得到正向和反向兩部分輸入:和。然后分別輸入到兩個LSTM當中,Encoder的最終輸出由兩個LSTM的輸出拼接得到:。

2.2)Decoder

Decoder由一個基于動態(tài)解碼的詞為輸入的單向LSTM構(gòu)成。和傳統(tǒng)的Seq2Seq模型對比,本模型具有兩方面的區(qū)別。第一,由于基于Transition System的解碼系統(tǒng)自帶了注意力的屬性,所以本模型不需要顯式的注意力結(jié)構(gòu)。第二,本模型的Decoder基于動態(tài)解碼的word-level特征作為輸入,而不是原始輸入的character-level特征。

2.2.1)Word Representation

Decoder的輸入為詞列表,其中每個詞由兩部分組成:1)組成詞的每個字的Encoder輸出的組合;2)預測的詞性標簽的Embedding。

Decoder的輸入的詞可以表示為:

其中有幾種可選的計算方式:

由于Encoder的輸出由兩個方向分別組成,所以詞的表示也分別由兩個方向的組合拼接得到:

然后把詞表示和詞性標簽的Embedding拼接,通過一個簡單的線性變換得到:

2.2.2)LSTM

把輸入到單向LSTM當中,得到每一步的隱藏狀態(tài),然后經(jīng)過兩次線性變換,得到每一步的輸出:

2.3)Training

使用交叉熵作為損失函數(shù):

實驗結(jié)果

特征分析

1)Word Representation

2)Feature

?

3)Pretrain Embedding

================================================================================================

ACL 2020:Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge
================================================================================================

概述

當前的詞性標注模型只關(guān)注n-gram等上下文信息,忽略了其他語法知識。然而,句法結(jié)構(gòu)、依存關(guān)系等知識可以提供單詞之間的距離依賴信息。使用現(xiàn)成的工具自動生成的語法知識,可以對詞性標注模型起到輔助作用。本文提出一個中文分詞和詞性標注聯(lián)合標注模型,使用雙向注意機制整合每個輸入字符的上下文特征及其相應(yīng)的語法知識。

模型架構(gòu)

設(shè)輸入為,輸出為,的上下文特征為,語法知識為。每個字符對應(yīng)的特征表示為和。

1)Auto-analyzed Knowledge

人工標注的語法知識比較難以獲取,但是自動分析得到的語法知識可以通過工具生成,雖然自動生成的知識有一定噪聲,但是如果可以讓模型學習如何利用這些知識,可以有效提升模型效果。本模型通過注意力機制,從自動生成的語法知識中提取特征。

本文使用三種語法知識:1)自動生成的詞性標注標簽;2)句法結(jié)構(gòu);3)依存關(guān)系。

1.1)自動生成的詞性標注標簽

對于每個字符?,取包含該字符的詞,以及其相鄰2個詞范圍內(nèi)的所有詞,的上下文和詞性標注標簽特征。

1.2)句法結(jié)構(gòu)

首先定義一組需要關(guān)注的句法標簽。對于每個字符?,從包含該字符的詞開始往根節(jié)點回溯,直到遇到第一個在預定義的句法標簽的詞為止,取該詞下的所有葉子節(jié)點的詞的上下文和句法標簽特征。

1.3)依存關(guān)系

對于每個字符?,取包含該字符的詞以及與其存在依存關(guān)系的所有詞的上下文和依存關(guān)系標簽特征。

2)Two-Way Attentions

之前的研究直接把上下文特征和語法知識進行拼接,容易受噪聲干擾,本模型分別使用兩個attention提取上下文和語法知識特征。以上下文特征為例,計算方式為:

其中是編碼器提取的特征,是的上下文特征中的第j項,是的embedding。

使用同樣的方式提取語法知識特征,最后把上下文和語法知識特征拼接,得到本層輸出。

3)Joint Tagging with Two-way Attentions

把編碼器和雙向注意機制提取的特征拼接后輸入到一個線性變換層,然后輸入到CRF層得到最終輸出:

實驗結(jié)果

本文測試使用Stanford CoreNLP Toolkit(SCT)和Berkeley Neural Parser(BNP)兩個工具本身進行詞性標注的結(jié)果,和基于它們提取的語法特征在本模型下的結(jié)果。

同時也對比使用Bi-LSTM、BERT、ZEN三種編碼器的結(jié)果。

特征分析

總結(jié)

以上是生活随笔為你收集整理的词性标注学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。