宗成庆《文本数据挖掘》学习笔记:第二章 数据预处理和标注
文章目錄
- 第二章: 數據預處理和標注
- 1.數據獲取
- 數據獲取的一般方法
- 2.數據預處理
- 3.數據標注
- 4.基本工具
- 漢語自動分詞與詞性標注
- 句法分析
- n元語法模型
第二章: 數據預處理和標注
1.數據獲取
從數據的來源來看,數據通常分為來自開放域和來自封閉域,但是所謂的開放和封閉也并不絕對。
相對而言,來自專用平臺的數據比較規范,而公眾網絡平臺特別是社交平臺上的數據還有較多的噪聲和非規范語言現象,因此需要花費更多的時間進行數據預處理和清洗。
數據獲取的一般方法
通過使用Python的urllib2庫可以下載一個鏈接所包含的數據。
一般的評論網站能夠訪問的數據量有所限制,一般來說需要進行注冊登錄才能夠繼續進行,這時候也能夠使用爬蟲對網站進行模擬登錄,主要思路是分析人工登錄網頁時的信息流走向,然后通過爬蟲模擬人工登錄的過程。
python模擬豆瓣登錄實戰:https://www.cnblogs.com/jinxiao-pu/p/6670672.html
python模擬登錄的一般方法:https://www.cnblogs.com/chenxiaohan/p/7654667.html
使用python進行網站數據抓取的時候,要注意網站的Robot協議,該協議規定了該網站什么數據可以進行抓取,什么數據不行。
下載之后的網頁數據一般都有較好的結構,可以通過Python的beautiful soup工具包對下載的網頁進行解析。
得到網頁的數據之后要進行數據清理,對于豆瓣評論抓取來說,要刪除噪聲還有過短的評論:
2.數據預處理
數據獲取完成后要對文本進行進一步的預處理:
3.數據標注
數據標注是有監督機器學習的基礎,針對不同的數據挖掘任務,數據標注的規范標準和復雜程度都不一樣。針對電子病歷的分析任務,需要標注出病歷中每一個實體的邊界和類型。
具體標注時,一般來說需要開發一個標注工具,除了需要標注出所有實體的邊界還有它們的關系。開發一個方便好用的標注工具是標注大規模數據的基本保障。
4.基本工具
無論是前面的數據預處理,數據標注,還是后面將要講到的一些數據挖掘方法,通常需要用到很多基礎性的技術還有方法,比如說分詞、句法分析、詞性標注和語塊分析等。以下對部分技術和方法做簡要介紹。
漢語自動分詞與詞性標注
關于漢語自動分詞方法,從早期的基于詞典的分詞方法(最大匹配方法、最短路徑分詞方法),到基于n元語法(n-gram)的統計切分方法,再到后來的由字構詞的漢語分詞方法。
其中,由字構詞是漢語分詞研究的一種標志性創新方法:句子中的任何一個單位在詞中的位置只有4種可能:B(begin),M(middle),E(end),S(single)。BE都是成對出現的。在這樣的情況下,漢語分詞問題轉化為序列標注問題,可以借助大規模訓練樣本分類器完成分詞任務。在實際應用中人們也嘗試把這個方法融合起來以達到更好的效果。
詞性標注指自動為句子中得每個詞打上詞性類別標簽。標注名詞動詞形容詞等等,詞性標注是句法分析的前提和基礎,詞性信息是文本表示的重要特征,對命名實體識別,關系抽取和文本情感分析等都具有重要幫助。
詞性標注是一個典型的序列標注問題,所以說詞性標注與自動分詞聯系緊密,在很多模型內都將兩個任務集合成一體完成,比如說基于隱馬爾可夫模型的自動分詞方法。
句法分析
句法分析包括短語結構分析和依存關系分析。短語結構分析通過自動分析句子的短語結構輸出句子的句法結構樹。依存關系則是自動分析出詞匯之間的語義依存關系輸出依存關系樹。一個句子的短語結構樹可以被一一對應轉化為依存關系樹。在NLP中,通常將短語結構分析工具稱作句法分析器,把依存關系分析工作稱為依存分析器。
一般的句法分析器是對一個完整的句子進行分析,獲得句子完整的句法分析樹,稱為完全句法分析。但是一般的情況我們不需要得到完整的句法分析結果,只需要識別名詞短語和動詞短語等等,這樣識別句子中特定類型短語的分析技術稱為淺層句法分析。目前使用較多的淺層句法分析方法類似于由字構詞,詞位標記可以使用BEMS,也可以使用BIO。
n元語法模型
n元語法是傳統的語言模型,基本思想是:
對于一個由l(l≥2)個基元(“基元”可以為字,詞或短語等,為了表述方便,用“詞”來通指)構成的字符串s=w1w2···wl, 其概率計算公式如下:
p(s) = p(w1) p(w2|w1) P(w3|w2w1)…p(wl|w1…wl-1)
為了簡化計算的復雜性,假設當前詞的概率只與前n-1個詞有關,于是
p(s) ≈ p(w1) p(w2|w1) P(w3|w2)…p(wl|wl-1)
當n=1時,出現在i的詞獨立于前面已經出現的詞,句子是由獨立的詞構成的序列,稱為一元文法模型。
當=2時,出現在i的詞wi的概率只和它前面一個詞wi-1有關,稱為二元文法模型,也稱作一階的馬爾可夫鏈。
之后的以此類推。
總結
以上是生活随笔為你收集整理的宗成庆《文本数据挖掘》学习笔记:第二章 数据预处理和标注的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nginx集群_windows环境下搭建
- 下一篇: css超出隐藏显示省略号