當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

宗成庆《文本数据挖掘》学习笔记：第二章数据预处理和标注

發布時間：2023/12/9 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了宗成庆《文本数据挖掘》学习笔记：第二章数据预处理和标注小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

第二章：數據預處理和標注
- 1.數據獲取
- - 數據獲取的一般方法
- 2.數據預處理
- 3.數據標注
- 4.基本工具
- - 漢語自動分詞與詞性標注
  - 句法分析
  - n元語法模型

第二章：數據預處理和標注

1.數據獲取

從數據的來源來看，數據通常分為來自開放域和來自封閉域，但是所謂的開放和封閉也并不絕對。
相對而言，來自專用平臺的數據比較規范，而公眾網絡平臺特別是社交平臺上的數據還有較多的噪聲和非規范語言現象，因此需要花費更多的時間進行數據預處理和清洗。

數據獲取的一般方法

通過使用Python的urllib2庫可以下載一個鏈接所包含的數據。

一般的評論網站能夠訪問的數據量有所限制，一般來說需要進行注冊登錄才能夠繼續進行，這時候也能夠使用爬蟲對網站進行模擬登錄，主要思路是分析人工登錄網頁時的信息流走向，然后通過爬蟲模擬人工登錄的過程。

python模擬豆瓣登錄實戰：https://www.cnblogs.com/jinxiao-pu/p/6670672.html
python模擬登錄的一般方法：https://www.cnblogs.com/chenxiaohan/p/7654667.html

使用python進行網站數據抓取的時候，要注意網站的Robot協議，該協議規定了該網站什么數據可以進行抓取，什么數據不行。

下載之后的網頁數據一般都有較好的結構，可以通過Python的beautiful soup工具包對下載的網頁進行解析。

得到網頁的數據之后要進行數據清理，對于豆瓣評論抓取來說，要刪除噪聲還有過短的評論：

噪聲處理：通過python的langdetect包幫助識別語言，刪除不需要的語言數據。還有一些不需要的鏈接和用戶名等等，都要根據規律進行刪除。

繁體字轉換：可以借助開源工具包OpeCC或者其他工具包完成。

刪除過短的評論：對于英文，因為有空格的幫助可以直接統計，對于中文，可以進行分詞后再統計詞匯數目。通常刪除詞匯數量少于某個設定閾值的評論等等。

標簽對應：不同網站上提供的標簽類別和我們所希望使用的分類器不盡相同，所以需要進行標簽或者類別對應，比如說把打分機制的標簽統一為好、中、壞等等。

2.數據預處理

數據獲取完成后要對文本進行進一步的預處理：

詞條化：也就是我們平常說的分詞。

去停用詞：主要指功能詞，通常指在文檔中頻繁出現的介詞、助詞、語氣詞、連詞等等，帶有極少的信息，但出現頻率很高，對于文本區分沒有實質意義，為了提高效率，一般在文本表示時就自動將這些詞過濾掉，具體實現中通常建一個停用詞表，在特征抽取的時候直接刪除停用詞表中的詞。

詞形規范化：一般爭對西方語言詞各種形態的處理，一般通過規則或者正則表達式實現。其中波特詞干提取算法被廣泛應用。python的NLT工具包也提供了該算法的調度函數。該算法的詳細描述：http://snowball.tartarus.org/algorithms/english/stemmer.html

3.數據標注

數據標注是有監督機器學習的基礎，針對不同的數據挖掘任務，數據標注的規范標準和復雜程度都不一樣。針對電子病歷的分析任務，需要標注出病歷中每一個實體的邊界和類型。

具體標注時，一般來說需要開發一個標注工具，除了需要標注出所有實體的邊界還有它們的關系。開發一個方便好用的標注工具是標注大規模數據的基本保障。

4.基本工具

無論是前面的數據預處理，數據標注，還是后面將要講到的一些數據挖掘方法，通常需要用到很多基礎性的技術還有方法，比如說分詞、句法分析、詞性標注和語塊分析等。以下對部分技術和方法做簡要介紹。

漢語自動分詞與詞性標注

關于漢語自動分詞方法，從早期的基于詞典的分詞方法（最大匹配方法、最短路徑分詞方法），到基于n元語法（n-gram）的統計切分方法，再到后來的由字構詞的漢語分詞方法。

其中，由字構詞是漢語分詞研究的一種標志性創新方法：句子中的任何一個單位在詞中的位置只有4種可能：B（begin）,M（middle）,E（end）,S（single）。BE都是成對出現的。在這樣的情況下，漢語分詞問題轉化為序列標注問題，可以借助大規模訓練樣本分類器完成分詞任務。在實際應用中人們也嘗試把這個方法融合起來以達到更好的效果。

詞性標注指自動為句子中得每個詞打上詞性類別標簽。標注名詞動詞形容詞等等，詞性標注是句法分析的前提和基礎，詞性信息是文本表示的重要特征，對命名實體識別，關系抽取和文本情感分析等都具有重要幫助。

詞性標注是一個典型的序列標注問題，所以說詞性標注與自動分詞聯系緊密，在很多模型內都將兩個任務集合成一體完成，比如說基于隱馬爾可夫模型的自動分詞方法。

句法分析

句法分析包括短語結構分析和依存關系分析。短語結構分析通過自動分析句子的短語結構輸出句子的句法結構樹。依存關系則是自動分析出詞匯之間的語義依存關系輸出依存關系樹。一個句子的短語結構樹可以被一一對應轉化為依存關系樹。在NLP中，通常將短語結構分析工具稱作句法分析器，把依存關系分析工作稱為依存分析器。

一般的句法分析器是對一個完整的句子進行分析，獲得句子完整的句法分析樹，稱為完全句法分析。但是一般的情況我們不需要得到完整的句法分析結果，只需要識別名詞短語和動詞短語等等，這樣識別句子中特定類型短語的分析技術稱為淺層句法分析。目前使用較多的淺層句法分析方法類似于由字構詞，詞位標記可以使用BEMS，也可以使用BIO。

n元語法模型

n元語法是傳統的語言模型，基本思想是：
對于一個由l（l≥2）個基元（“基元”可以為字，詞或短語等，為了表述方便，用“詞”來通指）構成的字符串s=w1w2···wl, 其概率計算公式如下:
p(s) = p(w1) p(w2|w1) P(w3|w2w1)…p(wl|w1…wl-1)
為了簡化計算的復雜性，假設當前詞的概率只與前n-1個詞有關，于是
p(s) ≈ p(w1) p(w2|w1) P(w3|w2)…p(wl|wl-1)

當n=1時，出現在i的詞獨立于前面已經出現的詞，句子是由獨立的詞構成的序列，稱為一元文法模型。

當=2時，出現在i的詞wi的概率只和它前面一個詞wi-1有關，稱為二元文法模型，也稱作一階的馬爾可夫鏈。
之后的以此類推。

總結

以上是生活随笔為你收集整理的宗成庆《文本数据挖掘》学习笔记：第二章数据预处理和标注的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： nginx集群_windows环境下搭建
下一篇： css超出隐藏显示省略号