NLP浅谈语料库
NLP淺談?wù)Z料庫(kù)
1. 淺談?wù)Z料庫(kù)
1.1 語(yǔ)料和語(yǔ)料庫(kù)
? 語(yǔ)料通常指在統(tǒng)計(jì)自然語(yǔ)言處理中實(shí)際上不可能觀(guān)測(cè)到大規(guī)模的語(yǔ)言實(shí)例。所以人們簡(jiǎn)單地用文本作為替代,并把文本中的上下文關(guān)系作為現(xiàn)實(shí)世界中語(yǔ)言的上下文關(guān)系的替代品。
? 語(yǔ)料庫(kù)一詞在語(yǔ)言學(xué)上意指大量的文本,通常經(jīng)過(guò)整理,具有既定格式與標(biāo)記。其具備三個(gè)顯著的特點(diǎn):
- 語(yǔ)料庫(kù)中存放的是在語(yǔ)言的實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料。
- 語(yǔ)料庫(kù)以電子計(jì)算機(jī)為載體承載語(yǔ)言知識(shí)的基礎(chǔ)資源,但并不等于語(yǔ)言知識(shí)。
- 真實(shí)材料需要經(jīng)過(guò)加工(分析和處理),才能成為有用的資源
1.2 語(yǔ)料庫(kù)語(yǔ)言學(xué)
? 語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究范疇:主要研究機(jī)器可讀自然語(yǔ)言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語(yǔ)法標(biāo)注、句法語(yǔ)義分析,以及具有上述功能的語(yǔ)料庫(kù)在語(yǔ)言教學(xué)、語(yǔ)言定量分析、詞匯研究、詞語(yǔ)搭配研究、詞典編制、語(yǔ)法研究、語(yǔ)言文化研究、法律語(yǔ)言研究、作品風(fēng)格分析、自然語(yǔ)言理解、機(jī)器翻譯等方面的應(yīng)用。
1.3 建立語(yǔ)料庫(kù)的意義
? 語(yǔ)料庫(kù)是為一個(gè)或者多個(gè)應(yīng)用目標(biāo)而專(zhuān)門(mén)收集的,有一定結(jié)構(gòu)的、有代表的、可被計(jì)算機(jī)程序檢索的、具有一定規(guī)模的語(yǔ)料集合。本質(zhì)上講,語(yǔ)料庫(kù)實(shí)際上是通過(guò)對(duì)自然語(yǔ)言運(yùn)用的隨機(jī)抽樣,以一定大小的語(yǔ)言樣本來(lái)代表某一研究中所確定的語(yǔ)言運(yùn)用的總體。
2. 語(yǔ)料庫(kù)深入了解
2.1 語(yǔ)料庫(kù)劃分與種類(lèi)
馮志偉教授語(yǔ)料庫(kù)劃分比較有影響力且在學(xué)術(shù)上認(rèn)可度比較高:
- 按語(yǔ)料選取的時(shí)間劃分:可分為歷時(shí)語(yǔ)料庫(kù)(diachronic corpus)和共時(shí)語(yǔ)料庫(kù)(syn-chronic corpus)。
- 按語(yǔ)料的加工深度劃分,可分為標(biāo)注語(yǔ)料庫(kù)(annotated corpus)和非標(biāo)注語(yǔ)料庫(kù)(non- annotated corpus)。
- 按語(yǔ)料庫(kù)的結(jié)構(gòu)劃分,可分為平衡結(jié)構(gòu)語(yǔ)料庫(kù)(balance structure corpus)和自然隨機(jī)結(jié)構(gòu)的語(yǔ)料庫(kù)(random structure corpus)。
- 按語(yǔ)料庫(kù)的用途劃分,可分為通用語(yǔ)料庫(kù)(general corpus)和專(zhuān)用語(yǔ)料庫(kù)(specialized corpus)。
- 按語(yǔ)料庫(kù)的表達(dá)形式劃分,可分為口語(yǔ)語(yǔ)料庫(kù)(spoken corpus)和文本語(yǔ)料庫(kù)(textcorpus)。
- 按語(yǔ)料庫(kù)中語(yǔ)料的語(yǔ)種劃分,可分為單語(yǔ)種語(yǔ)料庫(kù)(monolingual corpora)和多語(yǔ)種語(yǔ)料庫(kù)(multilingual corpora)。多語(yǔ)種語(yǔ)料庫(kù)又可以再分為比較語(yǔ)料庫(kù)(comparable corpora)和平行語(yǔ)料庫(kù)(parallel corpora)。比較語(yǔ)料庫(kù)的目的側(cè)重于特定語(yǔ)言現(xiàn)象的對(duì)比,而平行語(yǔ)料庫(kù)的目的側(cè)重于獲取對(duì)應(yīng)的翻譯實(shí)例。
- 按語(yǔ)料庫(kù)的動(dòng)態(tài)更新程度劃分,可分為參考語(yǔ)料庫(kù)(reference corpus)和監(jiān)控語(yǔ)料庫(kù)(monitor corpus)。參考語(yǔ)料庫(kù)原則上不做動(dòng)態(tài)更新,而監(jiān)控語(yǔ)料庫(kù)則需要不斷地進(jìn)行動(dòng)態(tài)更新。
2.2 語(yǔ)料庫(kù)構(gòu)建原則
語(yǔ)料庫(kù)應(yīng)該具有代表性、結(jié)構(gòu)性、平衡性、規(guī)模性、元數(shù)據(jù),各個(gè)原則具體介紹如下:
- 代表性:在應(yīng)用領(lǐng)域中,不是根據(jù)量而劃分是否是語(yǔ)料庫(kù),而是在一定的抽樣框架范圍內(nèi)采集而來(lái)的,并且能在特定的抽樣框架內(nèi)做到代表性和普遍性。
- 結(jié)構(gòu)性:有目的地收集語(yǔ)料的集合,必須以電子形式存在,計(jì)算機(jī)可讀的語(yǔ)料集合結(jié)構(gòu)性體現(xiàn)在語(yǔ)料庫(kù)中語(yǔ)料記錄的代碼、元數(shù)據(jù)項(xiàng)、數(shù)據(jù)類(lèi)型、數(shù)據(jù)寬度、取值范圍、完整性約束。
- 平衡性:主要體現(xiàn)在平緩因子——學(xué)科、年代、文體、地域、登載語(yǔ)料的媒體、使用者的年齡、性別、文化背景、閱歷、預(yù)料用途(私信/廣告等),根據(jù)實(shí)際情況選擇其中一個(gè)或者幾個(gè)重要的指標(biāo)作為平衡因子,最常見(jiàn)的平衡因子有學(xué)科、年代、文體、地域等。
- 規(guī)模性:大規(guī)模的語(yǔ)料對(duì)語(yǔ)言研究特別是對(duì)自然語(yǔ)言研究處理很有用,但是隨著語(yǔ)料庫(kù)的增大,垃圾語(yǔ)料越來(lái)越多,語(yǔ)料達(dá)到一定規(guī)模以后,語(yǔ)料庫(kù)功能不能隨之增長(zhǎng),語(yǔ)料庫(kù)規(guī)模應(yīng)根據(jù)實(shí)際情況而定。
- 元數(shù)據(jù):元數(shù)據(jù)對(duì)于研究語(yǔ)料庫(kù)有著重要的意義,我們可以通過(guò)元數(shù)據(jù)了解語(yǔ)料的時(shí)間、地域、作者、文本信息等;構(gòu)建不同的子語(yǔ)料庫(kù);對(duì)不同的子語(yǔ)料對(duì)比;記錄語(yǔ)料知識(shí)版權(quán)、加工信息、管理信息等。
注意:漢語(yǔ)詞與詞之間沒(méi)有空隙,不便于計(jì)算機(jī)處理,一般需要進(jìn)行切詞和詞性標(biāo)注。
2.3 語(yǔ)料標(biāo)注的優(yōu)缺點(diǎn)
- 優(yōu)點(diǎn):研究方便。可重用、功能多樣、分析清晰。
- 缺點(diǎn):語(yǔ)料不客觀(guān)(手工標(biāo)注準(zhǔn)確率高而一致性差,自動(dòng)或者半自動(dòng)標(biāo)注一致性高而準(zhǔn)確率差)、標(biāo)注不一致、準(zhǔn)確率低。
3. 自然語(yǔ)言處理工具包:NLTK
3.1 了解NLTK
? NLTK(Natural language Toolkit):自然語(yǔ)言工具包,Python 編程語(yǔ)言實(shí)現(xiàn)的統(tǒng)計(jì)自然語(yǔ)言處理工具。它是由賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)的史蒂芬·伯德和愛(ài)德華·洛珀編寫(xiě)的。NLTK 支持NLP 研究和教學(xué)相關(guān)的領(lǐng)域,其收集的大量公開(kāi)數(shù)據(jù)集、模型上提供了全面易用的接口,涵蓋了分詞、詞性標(biāo)注(Part-of-Speech tag,POS-tag)、命名實(shí)體識(shí)別(NamedEntity Recognition,NER)、句法分析(Syntactic Parse) 等各項(xiàng)NLP 領(lǐng)域的功能。廣泛應(yīng)用在經(jīng)驗(yàn)語(yǔ)言學(xué)、認(rèn)知科學(xué)、人工智能、信息檢索和機(jī)器學(xué)習(xí)。
3.2 獲取NLTK
? 執(zhí)行exe 文件,會(huì)自動(dòng)匹配到Python 安裝路徑,如果沒(méi)有找到路徑則說(shuō)明NLTK 版本不正確,去官網(wǎng)選擇正確版本號(hào)下載.
? 獲取NLTK鏈接:https://pypi.org/project/nltk/3.2.1/#files
? 說(shuō)明:NLTK 核心包主要包括如下:
? ? NLTK-Data:分析和處理語(yǔ)言的語(yǔ)料庫(kù)。
? ? NumPy:科學(xué)計(jì)算庫(kù)。
? ? Matplotlib:數(shù)據(jù)可視化2D 繪圖庫(kù)。
? ? NetworkX:存儲(chǔ)和操作由節(jié)點(diǎn)和邊組成的網(wǎng)絡(luò)結(jié)構(gòu)函數(shù)庫(kù)。
4. 獲取語(yǔ)料庫(kù)
4.1 國(guó)內(nèi)外著名語(yǔ)料庫(kù)
- 賓州大學(xué)語(yǔ)料庫(kù): https://www.ldc.upenn.edu/
4.2 英文語(yǔ)料庫(kù)
- 古滕堡語(yǔ)料庫(kù):http://www.gutenberg.org/
- 語(yǔ)料庫(kù)在線(xiàn): http://www.aihanyu.org/cncorpus/index.aspx#P0
4.3 中文語(yǔ)料庫(kù)
- 搜狗實(shí)驗(yàn)室新聞| 互聯(lián)網(wǎng)數(shù)據(jù): http://www.sogou.com/labs/
- 北京大學(xué)語(yǔ)言研究中心:http://ccl.pku.edu.cn/term.asp
- 數(shù)據(jù)堂: http://www.datatang.com/
- 中央研究院平衡語(yǔ)料庫(kù)(https://www.sinica.edu.tw/SinicaCorpus):專(zhuān)門(mén)針對(duì)語(yǔ)言分析而設(shè)計(jì)的,每個(gè)文句都依詞斷開(kāi)并標(biāo)示詞類(lèi)。語(yǔ)料的搜集也盡量做到現(xiàn)代漢語(yǔ)分配在不同的主題和語(yǔ)式上,是現(xiàn)代漢語(yǔ)無(wú)窮多的語(yǔ)句中一個(gè)代表性的樣本。現(xiàn)有語(yǔ)料庫(kù)主要針對(duì)語(yǔ)言分析而設(shè)計(jì),由中央研究院信息所、語(yǔ)言所詞庫(kù)小組完成,內(nèi)含有簡(jiǎn)介、使用說(shuō)明。
- LIVAC 漢語(yǔ)共時(shí)語(yǔ)料庫(kù):http://www.livac.org/index.php?lang=tc
- 蘭開(kāi)斯特大學(xué)漢語(yǔ)平衡語(yǔ)料庫(kù): http://www.lancaster.ac.uk/fass/projects/corpus/
- 蘭開(kāi)斯特——洛杉磯漢語(yǔ)口語(yǔ)語(yǔ)料庫(kù) :http://www.lancaster.ac.uk/fass/projects/corpus/
- 語(yǔ)料庫(kù)語(yǔ)言學(xué)在線(xiàn):https://www.corpus4u.org/
- 北京森林工作室漢語(yǔ)句義結(jié)構(gòu)標(biāo)注語(yǔ)料庫(kù):http://www.isclab.org.cn/csa/bfs-ctc.htm
- 國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(http://corpus.zhonghuayuwen.org/index.aspx)
現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)現(xiàn)在重新開(kāi)放網(wǎng)絡(luò)查詢(xún)了。重開(kāi)后的在線(xiàn)檢索速度更快,功能更強(qiáng),同時(shí)提供檢索結(jié)果下載。現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)在線(xiàn)提供免費(fèi)檢索的語(yǔ)料約2000 萬(wàn)字,為分詞和詞性標(biāo)注語(yǔ)料。 - 古代漢語(yǔ)語(yǔ)料庫(kù)(http://corpus.zhonghuayuwen.org/):網(wǎng)站現(xiàn)在增加了一億字的古代漢語(yǔ)生語(yǔ)料,研究古代漢語(yǔ)的也可以去查詢(xún)和下載。網(wǎng)站同時(shí)還提供了分詞、詞性標(biāo)注軟件,詞頻統(tǒng)計(jì)、字頻統(tǒng)計(jì)軟件。基于國(guó)家語(yǔ)委語(yǔ)料庫(kù)的字頻詞頻統(tǒng)計(jì)結(jié)果和發(fā)布
的詞表等進(jìn)行建庫(kù),以供學(xué)習(xí)研究語(yǔ)言文字的同學(xué)和老師使用。 - 《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)(https://blog.csdn.net/eaglet/article/details/1778995):《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)中一半的語(yǔ)料(1998 年上半年)共1300 萬(wàn)字,已經(jīng)通過(guò)《人民日?qǐng)?bào)》新聞信息中心公開(kāi)并提供許可使用權(quán)。其中一個(gè)月的語(yǔ)料(1998 年1 月)近200 萬(wàn)字在互聯(lián)網(wǎng)上公布,可自由下載。
- 古漢語(yǔ)語(yǔ)料庫(kù)(https://www.sinica.edu.tw/ch):古漢語(yǔ)語(yǔ)料庫(kù)包含以下五個(gè)語(yǔ)料庫(kù)—— 上古漢語(yǔ)、中古漢語(yǔ)(含大藏經(jīng))、近代漢語(yǔ)、出土文獻(xiàn)、其他。部分?jǐn)?shù)據(jù)取自史語(yǔ)所漢籍全文數(shù)據(jù)庫(kù),故兩者間內(nèi)容略有重疊。此語(yǔ)料庫(kù)之出土文獻(xiàn)語(yǔ)料庫(kù),全部取自史語(yǔ)所漢簡(jiǎn)小組所制作的數(shù)據(jù)庫(kù)。
- 近代漢語(yǔ)標(biāo)記語(yǔ)料庫(kù)(https://www.sinica.edu.tw/Early_Mandarin):為應(yīng)對(duì)漢語(yǔ)史研究需
求而建構(gòu)的語(yǔ)料庫(kù)。目前語(yǔ)料庫(kù)所搜集的語(yǔ)料已涵蓋上古漢語(yǔ)(先秦至西漢)、中古漢語(yǔ)(東漢魏晉南北朝)、近代漢語(yǔ)(唐五代以后)大部分的重要語(yǔ)料,并陸續(xù)開(kāi)放使用;在標(biāo)記語(yǔ)料庫(kù)方面,上古漢語(yǔ)及近代漢語(yǔ)都已有部分語(yǔ)料完成標(biāo)注的工作,并視結(jié)果逐步提供上線(xiàn)檢索。 - 樹(shù)圖數(shù)據(jù)庫(kù)(http://treebank.sinica.edu.tw/)
- 搜文解字(http://words.sinica.edu.tw/):包含「搜詞尋字」、「文學(xué)之美」、「游戲解惑」、「古文字的世界」四個(gè)單元,可由部件、部首、字、音、詞互查,并可查詢(xún)?cè)谒臅?shū)、老、莊、唐詩(shī)中的出處,以及直接鏈接到出處并閱讀原文。
- 文國(guó)尋寶記(https://www.sinica.edu.tw/wen):在搜文解字的基礎(chǔ)之上,以華語(yǔ)文學(xué)習(xí)者為對(duì)象,進(jìn)一步將字、詞、音的檢索功能與國(guó)編、華康、南一等三種版本的國(guó)小國(guó)語(yǔ)課本結(jié)合。與唐詩(shī)三百首、宋詞三百首、紅樓夢(mèng)、水滸傳等文學(xué)典籍結(jié)合,提供網(wǎng)絡(luò)上國(guó)語(yǔ)文學(xué)習(xí)的素材。
- 漢籍電子文獻(xiàn)(https://www.sinica.edu.tw/ch):包含整部25 史整部阮刻13經(jīng)、超過(guò)2000 萬(wàn)字的臺(tái)灣史料、1000 萬(wàn)字的大正藏及其他典籍。
- 中國(guó)傳媒大學(xué)文本語(yǔ)料庫(kù)檢索系統(tǒng)(http://ling.cuc.edu.cn/RawPub/)
- 新詞語(yǔ)研究資源庫(kù)(http://ling.cuc.edu.cn/newword/)
- 哈工大信息檢索研究室對(duì)外共享語(yǔ)料庫(kù)資源 :http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
該語(yǔ)料庫(kù)為漢英雙語(yǔ)語(yǔ)料庫(kù),10 萬(wàn)對(duì)齊雙語(yǔ)句對(duì),文本書(shū)件格式,同義詞詞林?jǐn)U展版,77343 條詞語(yǔ),秉承《同義詞詞林》的編撰風(fēng)格。同時(shí)采用五級(jí)編碼體系,多文檔自動(dòng)文摘語(yǔ)料庫(kù),40 個(gè)主題,文本書(shū)件格式,同一主題下是同一事件的不同報(bào)道。漢語(yǔ)依存樹(shù)庫(kù),不帶關(guān)系5 萬(wàn)句,帶關(guān)系1 萬(wàn)句;LTML 化,分詞、詞性、句法部分人工標(biāo)注,可以圖形化查看,問(wèn)答系統(tǒng)問(wèn)題集,6264 句;已標(biāo)注問(wèn)題類(lèi)型,LTML 化,分詞、詞性、句法、詞義、淺層語(yǔ)義等程序處理得到,單文檔自動(dòng)文摘語(yǔ)料庫(kù)共211 篇。
參考鏈接
【自然語(yǔ)言處理】淺談?wù)Z料庫(kù)
NLP語(yǔ)料庫(kù)
總結(jié)
- 上一篇: 参数等效模型可以用于_干货分享电池单体产
- 下一篇: 1985-2020年全国各省一二三产业就