《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.11 小结
本節書摘來異步社區《NLTK基礎教程——用NLTK和Python庫構建機器學習應用》一書中的第2章,第2.11節,作者:Nitin Hardeniya,更多章節內容可以訪問云棲社區“異步社區”公眾號查看。
2.11 小結
在這一章中,我們討論了所有與文本內容相關的數據挖掘與數據再加工話題。我們介紹了一些最常見的數據源,并用相關的Python包來對它們進行解析。其中,我們深入地探討了標識化處理,從非常基本的字符串方法到自定義的基于正則表達式的標識器均有所涉及。
另外,我們還討論了詞干提取和詞形還原。在這過程中,我們介紹了各種可用的詞干提取器類型及它們各自的優缺點。我們還討論了停用詞移除的過程,這個操作的重要性,何時該執行停用詞移除以及何時不需要執行它。我們還簡單地討論了如何清除文本中的罕見詞,以及執行文本清理的重要性——這里包含了停用詞和罕見詞,我們會根據它們的頻率分布來重點清除。最后,我們還提到了拼寫糾錯。我們在文本挖掘和文本清理上可以做的事情是無限的。每一種語料庫都是一個新的挑戰,并且都存在要除去某種新噪音的需要。我們需要花一點時間來了解一下自己的語料庫需要執行什么類型的預處理操作,以及應該忽略掉什么東西。
在下一章中,我們將會看到一些與NLP相關的預處理,例如詞性標注、斷句處理以及NER等。我們會在下一章的某些開放性問題的提示和答案中作出解釋。
總結
以上是生活随笔為你收集整理的《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.11 小结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习系列|从白富美相亲看特征预处理与
- 下一篇: 《Python数据科学指南》——1.23