日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文 lda数据预处理_英文文本挖掘预处理流程总结

發布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文 lda数据预处理_英文文本挖掘预处理流程总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊上方“AI遇見機器學習”,選擇“星標”公眾號

重磅干貨,第一時間送達

整理:AI算法之心

作者:劉建平Pinard ?
博客地址:https://www.cnblogs.com/pinard ?
原文鏈接,點擊文末閱讀全文直達:https://www.cnblogs.com/pinard/p/6744056.html

在中文文本挖掘預處理流程總結中,我們總結了中文文本挖掘的預處理流程,這里我們再對英文文本挖掘的預處理流程做一個總結。

1. 英文文本挖掘預處理特點

英文文本的預處理方法和中文的有部分區別。首先,英文文本挖掘預處理一般可以不做分詞(特殊需求除外),而中文預處理分詞是必不可少的一步。第二點,大部分英文文本都是uft-8的編碼,這樣在大多數時候處理的時候不用考慮編碼轉換的問題,而中文文本處理必須要處理unicode的編碼問題。這兩部分我們在中文文本挖掘預處理里已經講了。

而英文文本的預處理也有自己特殊的地方,第三點就是拼寫問題,很多時候,我們的預處理要包括拼寫檢查,比如“Helo World”這樣的錯誤,我們不能在分析的時候講錯糾錯。所以需要在預處理前加以糾正。第四點就是詞干提取(stemming)和詞形還原(lemmatization)。這個東西主要是英文有單數,復數和各種時態,導致一個詞會有不同的形式。比如“countries”和"country","wolf"和"wolves",我們期望是有一個詞。

后面的預處理中,我們會重點講述第三點和第四點的處理。

2. 英文文本挖掘預處理一:數據收集

這部分英文和中文類似。獲取方法一般有兩種:使用別人做好的語料庫和自己用爬蟲去在網上去爬自己的語料數據。

對于第一種方法,常用的文本語料庫在網上有很多,如果大家只是學習,則可以直接下載下來使用,但如果是某些特殊主題的語料庫,比如“deep learning”相關的語料庫,則這種方法行不通,需要我們自己用第二種方法去獲取。

對于第二種使用爬蟲的方法,開源工具有很多,通用的爬蟲我一般使用beautifulsoup。但是我們我們需要某些特殊的語料數據,比如上面提到的“deep learning”相關的語料庫,則需要用主題爬蟲(也叫聚焦爬蟲)來完成。這個我一般使用ache。ache允許我們用關鍵字或者一個分類算法模型來過濾出我們需要的主題語料,比較強大。

3. ?英文文本挖掘預處理二:除去數據中非文本部分

這一步主要是針對我們用爬蟲收集的語料數據,由于爬下來的內容中有很多html的一些標簽,需要去掉。少量的非文本內容的可以直接用Python的正則表達式(re)刪除, 復雜的則可以用beautifulsoup來去除。另外還有一些特殊的非英文字符(non-alpha),也可以用Python的正則表達式(re)刪除。

4. ?英文文本挖掘預處理三:拼寫檢查更正

由于英文文本中可能有拼寫錯誤,因此一般需要進行拼寫檢查。如果確信我們分析的文本沒有拼寫問題,可以略去此步。

拼寫檢查,我們一般用pyenchant類庫完成。pyenchant的安裝很簡單:"pip install pyenchant"即可。

對于一段文本,我們可以用下面的方式去找出拼寫錯誤:

完整代碼參見我的github: https://github.com/ljpzzz/machinelearning/blob/master/natural-language-processing/english_digging.ipynb

from enchant.checker import SpellCheckerchkr = SpellChecker("en_US")chkr.set_text("Many peope likee to watch In the Name of People.")for err in chkr: print "ERROR:", err.word

輸出是:

ERROR: peopeERROR: likee

找出錯誤后,我們可以自己來決定是否要改正。當然,我們也可以用pyenchant中的wxSpellCheckerDialog類來用對話框的形式來交互決定是忽略,改正還是全部改正文本中的錯誤拼寫。大家感興趣的話可以去研究pyenchant的官方文檔。

5. ?英文文本挖掘預處理四:詞干提取(stemming)和詞形還原(lemmatization)

詞干提取(stemming)和詞型還原(lemmatization)是英文文本預處理的特色。兩者其實有共同點,即都是要找到詞的原始形式。只不過詞干提取(stemming)會更加激進一點,它在尋找詞干的時候可以會得到不是詞的詞干。比如"imaging"的詞干可能得到的是"imag", 并不是一個詞。而詞形還原則保守一些,它一般只對能夠還原成一個正確的詞的詞進行處理。個人比較喜歡使用詞型還原而不是詞干提取。

在實際應用中,一般使用nltk來進行詞干提取和詞型還原。安裝nltk也很簡單,"pip install nltk"即可。只不過我們一般需要下載nltk的語料庫,可以用下面的代碼完成,nltk會彈出對話框選擇要下載的內容。選擇下載語料庫就可以了。

import nltknltk.download()

在nltk中,做詞干提取的方法有PorterStemmer,LancasterStemmer和SnowballStemmer。個人推薦使用SnowballStemmer。這個類可以處理很多種語言,當然,除了中文。

from nltk.stem import SnowballStemmerstemmer = SnowballStemmer("english") # Choose a languagestemmer.stem("countries") # Stem a word

輸出是"countri",這個詞干并不是一個詞。

而如果是做詞型還原,則一般可以使用WordNetLemmatizer類,即wordnet詞形還原方法。

from nltk.stem import WordNetLemmatizerwnl = WordNetLemmatizer()print(wnl.lemmatize( countries ))

輸出是"country",比較符合需求。

在實際的英文文本挖掘預處理的時候,建議使用基于wordnet的詞形還原就可以了。

在這里有個詞干提取和詞型還原的demo,如果是這塊的新手可以去看看,上手很合適。

6. 英文文本挖掘預處理五:轉化為小寫

由于英文單詞有大小寫之分,我們期望統計時像“Home”和“home”是一個詞。因此一般需要將所有的詞都轉化為小寫。這個直接用python的API就可以搞定。

7. 英文文本挖掘預處理六:引入停用詞

在英文文本中有很多無效的詞,比如“a”,“to”,一些短詞,還有一些標點符號,這些我們不想在文本分析的時候引入,因此需要去掉,這些詞就是停用詞。個人常用的英文停用詞表下載地址在這。當然也有其他版本的停用詞表,不過這個版本是我常用的。

在我們用scikit-learn做特征處理的時候,可以通過參數stop_words來引入一個數組作為停用詞表。這個方法和前文講中文停用詞的方法相同,這里就不寫出代碼,大家參考前文即可。

8. 英文文本挖掘預處理七:特征處理

現在我們就可以用scikit-learn來對我們的文本特征進行處理了,在文本挖掘預處理之向量化與Hash Trick中,我們講到了兩種特征處理的方法,向量化與Hash Trick。而向量化是最常用的方法,因為它可以接著進行TF-IDF的特征處理。在文本挖掘預處理之TF-IDF中,我們也講到了TF-IDF特征處理的方法。

TfidfVectorizer類可以幫助我們完成向量化,TF-IDF和標準化三步。當然,還可以幫我們處理停用詞。這部分工作和中文的特征處理也是完全相同的,大家參考前文即可。

9. 英文文本挖掘預處理八:建立分析模型

有了每段文本的TF-IDF的特征向量,我們就可以利用這些數據建立分類模型,或者聚類模型了,或者進行主題模型的分析。此時的分類聚類模型和之前講的非自然語言處理的數據分析沒有什么兩樣。因此對應的算法都可以直接使用。而主題模型是自然語言處理比較特殊的一塊,這個我們后面再單獨講。

10. 英文文本挖掘預處理總結

上面我們對英文文本挖掘預處理的過程做了一個總結,希望可以幫助到大家。需要注意的是這個流程主要針對一些常用的文本挖掘,并使用了詞袋模型,對于某一些自然語言處理的需求則流程需要修改。比如有時候需要做詞性標注,而有時候我們也需要英文分詞,比如得到"New York"而不是“New”和“York”,因此這個流程僅供自然語言處理入門者參考,我們可以根據我們的數據分析目的選擇合適的預處理方法。

歡迎關注我們,看通俗干貨

總結

以上是生活随笔為你收集整理的中文 lda数据预处理_英文文本挖掘预处理流程总结的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 中文字幕高清在线免费播放 | 亚洲天堂五月 | 超碰三级 | 色女人天堂 | 欧美在线播放视频 | 日本福利视频导航 | 高潮av| 黑人玩弄人妻一区二 | 日日插夜夜爽 | 97超碰成人 | 夜夜草视频| 双性尿奴穿贞c带憋尿 | 九九热国产 | 欧美巨大乳 | 久久久久久久久久久av | 尤物最新网址 | 成人国产av一区二区三区 | 亚洲视频在线观看免费视频 | 97夜夜| 天天操天天操天天操天天操天天操 | 国产视频一二区 | ass亚洲熟妇毛耸耸pics | 亚洲欧美伊人 | 久久人人爽爽 | 亚洲精品国产精品国自产网站按摩 | 国产a级黄色片 | 久久99婷婷 | 国产精品国语对白 | 亚洲a黄 | 制服丝袜在线第一页 | 深夜福利视频导航 | 折磨小男生性器羞耻的故事 | 自拍偷拍18p| 久久久久久久久久免费 | 岛国毛片在线观看 | 欧美xxxx胸大| 中文字幕人妻丝袜乱一区三区 | 国产一区免费在线观看 | 两根大肉大捧一进一出好爽视频 | 色视频一区 | 伊人网国产 | 佐山爱av在线 | 成人免费在线 | 靠逼在线观看 | 人妻熟女一区二区三区 | 亚洲精品日韩在线 | 91精品国产乱码久久久久久久久 | 自拍偷拍亚洲天堂 | 在线看欧美 | 97国产精品视频人人做人人爱 | 国产日韩中文字幕 | 日韩精品片 | 91精品国产综合久久国产大片 | 少妇献身老头系列 | 人人爱爱人人 | 日日噜噜噜夜夜爽爽狠狠视频97 | 黄色片一区二区 | 欧美精品在线观看一区二区 | 国产sss| 艳妇乳肉豪妇荡乳 | 91成人在线观看喷潮蘑菇 | 免费av成人 | 久久国语 | 欧洲精品免费一区二区三区 | 久草日韩| 草草影院国产 | 午夜日韩视频 | 色干干| 黄色3级视频 | 越南黄色一级片 | 男人手机天堂 | 在线观看国产三级 | 91tv国产成人福利 | 美女网站一区 | 半推半就一ⅹ99av | 狠狠躁日日躁夜夜躁 | 特级黄色大片 | 在线中文字幕日韩 | 国产睡熟迷奷系列精品视频 | 亚洲午夜激情 | 亚洲高潮无码久久 | 朱竹清到爽高潮痉挛 | 国产精品99久久久久久大便 | 国产乱淫精品一区二区三区毛片 | 午夜免费福利视频 | 夜夜欢视频 | 日本在线看片 | 亚洲一区二区三区四区在线播放 | 性生活一区 | 精品黑人一区二区三区久久 | 久久久久亚洲av无码专区 | 日本精品久久久 | 欧美黄色图片 | 一区二区三区www污污污网站 | 激情四虎| 亚洲精品天堂成人片av在线播放 | 日韩视频成人 | 亚洲激情成人网 | 免费在线色 |