宗成庆《文本数据挖掘》学习笔记:第一章绪论
文章目錄
- 第一章:緒論
- 1.數據挖掘
- 2.文本數據挖掘
- 3.文本挖掘任務
- 4.文本挖掘困難
- 5.概要
第一章:緒論
1.數據挖掘
廣義解釋:數據挖掘是指從大量數據中挖掘有趣的模式和知識的過程。
數據源:數據庫,數據倉庫、web、其他信息存儲庫或動態地流入系統的數據。
文本數據挖掘:從自然語言文本中挖掘用戶感興趣的模式和知識的方法和技術,也稱文本挖掘。
文本:TXT文件,doc/docx,PDF文件和HTML文件等各類以語言為主要內容的數據文件。
2.文本數據挖掘
文本數據挖掘的挑戰:對非結構化自然語言文本內容的分析和理解。
因此,文本數據挖掘是自然語言處理(NLP)、模式分類(pattern classification)和機器學習(ML)等相關技術結合的綜合技術。
文本挖掘類型:
兩種類型并沒有明確的界限。
3.文本挖掘任務
在實際應用中通常需要集中相關技術結合起來完成某個應用任務。
例如,一個問答系統(Q&A)系統通常需要問句解析、知識庫搜索、候選答案推斷和過濾、答案生成等幾個環節。
典型的文本挖掘技術:
1)文本分類:將給定的文本劃分到事先規定的文本類型。
2)文本聚類:將給定的文本集劃分成不同的類別。與文本分類的算法和模型有很多交集。
3)主題模型:從文本中挖掘隱藏在文本背后的主題和概念。
4)情感分析與觀點挖掘:根據文本所表達的觀點和態度等主觀信息對文本進行分類,或者判斷某些文本的褒貶極性。
5)話題檢測與跟蹤:眾多新聞事件中報道和評論中挖掘、篩選出文本的話題。
6)信息抽取:從非結構化、半結構化的自然語言文本中抽取實體、實體屬性、實體間的關系以及事件等事實信息,并形成結構化輸出的一種文本數據挖掘技術。
7)文本自動摘要:利用自然語言處理方法自動生成摘要的一種方法。
4.文本挖掘困難
5.概要
總結
以上是生活随笔為你收集整理的宗成庆《文本数据挖掘》学习笔记:第一章绪论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Channel Allocation H
- 下一篇: HDU - 5686-Problem B