日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

發(fā)布時間:2024/7/5 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

OpenKG地址:http://openkg.cn/dataset/rcwi-dataset

開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)

貢獻者:北京語言大學(闕孟溪、張宇飛、于東)


1. 摘要

中文領域的詞匯復雜度評估資源較為匱乏,且現(xiàn)有的外語數(shù)據(jù)集大多數(shù)只關(guān)注造成閱讀困擾的詞匯。中文相對復雜詞匯識別數(shù)據(jù)集(以下簡稱RCWI-Dataset)為針對中文母語者構(gòu)建的詞匯復雜度評估資源,包含40613條樣本,三種詞匯復雜度類型,每條數(shù)據(jù)至少被三名中文母語標注員標注。該數(shù)據(jù)集為推動中文詞匯復雜度評估任務發(fā)展提供有力支撐。

2. 詞匯復雜度資源

中文詞匯復雜度資源以分級詞表為主,一般通過專家標注構(gòu)建,數(shù)據(jù)質(zhì)量高,但成本較高,規(guī)模較小。自然語言處理用的詞匯復雜度資源以詞匯簡化、復雜詞匯識別等任務為構(gòu)建導向,標注句子中不能被獨立理解的詞匯。簡單將詞匯分為“復雜”或“不復雜”兩類的方式無法對詞匯的復雜度進行具體說明,且直接標注目標詞匯的方式主觀性較強。對此我們引入句子中其余詞匯作為客觀比較對象,對句子中超出平均難度的詞匯進行標注,稱為“相對復雜詞匯”。此外,我們對詞匯的復雜程度作出區(qū)分,與傳統(tǒng)二值化詞匯復雜度的資源相比包含更豐富的復雜度信息。

3. 數(shù)據(jù)集

我們采用唐玉玲等人構(gòu)建的的漢語句子難度等級語料庫作為原始語料來源,該語料庫來自語文教材,涵蓋科普、記敘等多種文本體裁。我們根據(jù)原始句子等級比例抽取2-4等級的句子共2萬條。為了獲得更加可靠和多樣的標注結(jié)果,我們規(guī)定RCWI-Dataset的標注對象為:給定句子中,明顯超過句子平均詞匯難度的詞匯和詞組。若標注詞匯對閱讀理解造成困擾,標注為“Hard”,否則標注為“Complex”。根據(jù)試標注的結(jié)果確定了常見的三種標注情況,如表1所示。我們要求標注者在標注每條數(shù)據(jù)之前,先完成對句子的閱讀以獲得句子的整體詞匯難度。同時,考慮上下文對詞匯復雜度的影響,對于脫離當前上下文則無法準確理解的詞匯,同樣需要進行標注。

表1 三種常見的標注類型示例,橙色詞匯為“Complex”,紅色為“Hard”

Complex:能理解的但是超過句子平均詞匯難度的詞匯

1. 萬眾一心,冒著敵人的炮火,前進!

2. 正因為它不是一般的頑石,當然不能去做墻,做臺階,不能去雕刻,捶布。

Hard:閱讀理解困難的詞匯

1. 見到人們受苦,鯀很著急,就把天上的土偷下來,去堵塞洪水。

2. 于是,伯父家蓋房,想以它壘山墻,但苦于它極不規(guī)則,沒棱角兒,也沒平面兒;用鏨破開吧,又懶得花那么大氣力,因為河灘并不甚遠,隨便去掮一塊回來,哪一塊也比它強。

無標注:句子中的詞匯都很簡單或者難度比較平均

1. 爸把我從床頭打到床尾,外面的雨聲混合著我的哭聲。

2.?當山間的清泉奔向溪流,當嘩啦啦的大雨砸向屋頂,當小水滴清脆地落到盛水的盆里,你總該聽到些什么了吧?

由于復雜度標注具有較強的主觀性,以及和英文相比中文詞匯標注還隱性包含了詞匯邊界判定的環(huán)節(jié),部分標注結(jié)果存在標注重疊、標注冗余、標注類別差異等現(xiàn)象,我們對語義不完整的標注進行補充,拆分去除了冗余標注。在合并此詞匯復雜度類別的環(huán)節(jié)中,標注員都來自大學生群體,母語水準要高于一般母語者,存在向下評估詞匯復雜度的可能性,因此保留復雜度最高的標簽。

我們選擇在現(xiàn)有的標注數(shù)據(jù)上構(gòu)造負例樣本。在句子分詞后未標注詞匯的集合中按照詞頻進行排序,選取與正例詞匯等量的頻率最低的詞匯作為負例,標記為“Normal”類別。最終RCWI-Dataset中包含40613句子樣本,其中Complex標簽19218條、Hard標簽1169條、Normal標簽20226條,數(shù)據(jù)實例如下:

數(shù)據(jù)示例:

ID1 據(jù)王粲的《英雄記鈔》說,諸葛亮與徐庶、石廣元、孟公威等人一道游學讀書,三人務于精熟,而亮獨觀其大略。?? Hard 1 3 王粲

ID2 據(jù)王粲的《英雄記鈔》說,諸葛亮與徐庶、石廣元、孟公威等人一道游學讀書,三人務于精熟,而亮獨觀其大略。?? Complex 37 41 務于精熟

ID3 據(jù)王粲的《英雄記鈔》說,諸葛亮與徐庶、石廣元、孟公威等人一道游學讀書,三人務于精熟,而亮獨觀其大略。??? Normal 28 30 一道

4. 總結(jié)

針對中文詞匯復雜度評估領域相關(guān)資源的不足,我們構(gòu)建了中文詞匯相對復雜度評估數(shù)據(jù)集RCWI-Dataset,該數(shù)據(jù)集包含多樣的詞匯復雜度信息,為中文詞匯復雜度評估領域提供數(shù)據(jù)支撐。


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。