當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

宗成庆《文本数据挖掘》学习笔记：第一章绪论

發布時間：2023/12/9 编程问答 61 豆豆

生活随笔收集整理的這篇文章主要介紹了宗成庆《文本数据挖掘》学习笔记：第一章绪论小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

第一章：緒論
- 1.數據挖掘
- 2.文本數據挖掘
- 3.文本挖掘任務
- 4.文本挖掘困難
- 5.概要

第一章：緒論

1.數據挖掘

廣義解釋：數據挖掘是指從大量數據中挖掘有趣的模式和知識的過程。

數據源：數據庫，數據倉庫、web、其他信息存儲庫或動態地流入系統的數據。

文本數據挖掘：從自然語言文本中挖掘用戶感興趣的模式和知識的方法和技術，也稱文本挖掘。

文本：TXT文件，doc/docx，PDF文件和HTML文件等各類以語言為主要內容的數據文件。

2.文本數據挖掘

文本數據挖掘的挑戰：對非結構化自然語言文本內容的分析和理解。

文本內容都是非結構化的

文本內容是用自然語言描述的不是純用數據描述的

因此，文本數據挖掘是自然語言處理（NLP）、模式分類（pattern classification）和機器學習（ML）等相關技術結合的綜合技術。

文本挖掘類型：

目標問題明確具體，只是不知道答案。

有大概的目的，但是沒有明確的問題。

兩種類型并沒有明確的界限。

3.文本挖掘任務

在實際應用中通常需要集中相關技術結合起來完成某個應用任務。
例如，一個問答系統（Q&A)系統通常需要問句解析、知識庫搜索、候選答案推斷和過濾、答案生成等幾個環節。

典型的文本挖掘技術：
1）文本分類：將給定的文本劃分到事先規定的文本類型。

2）文本聚類：將給定的文本集劃分成不同的類別。與文本分類的算法和模型有很多交集。

3）主題模型：從文本中挖掘隱藏在文本背后的主題和概念。

4）情感分析與觀點挖掘：根據文本所表達的觀點和態度等主觀信息對文本進行分類，或者判斷某些文本的褒貶極性。

5）話題檢測與跟蹤：眾多新聞事件中報道和評論中挖掘、篩選出文本的話題。

6）信息抽取：從非結構化、半結構化的自然語言文本中抽取實體、實體屬性、實體間的關系以及事件等事實信息，并形成結構化輸出的一種文本數據挖掘技術。

7）文本自動摘要：利用自然語言處理方法自動生成摘要的一種方法。

4.文本挖掘困難

文本噪聲和非規范性表達

歧義表達與語義的隱蔽性

樣本收集和標注困難

挖掘目標和結果的要求難以準確表達和理解

語義表示和計算模型不甚奏效

5.概要

文本挖掘方法大致分為知識工程和統計學習

網絡大數據時代，統計機器學習成為主流，與深度學習，也就是基于神經網絡的機器學習屬于同一類方法，統稱為數據驅動。

第二章介紹數據預處理，是后續所有模型和算法實現之前的準備階段。

第三章文本表示是后續幾章所用模型的基礎，準確表示文本，運用數學模型。

第四章文本分類，第五章文本聚類，第六章是主題模型，是其他文本挖掘技術的理論基礎，或者說是基礎模型，有時候也被作為具體應用。

第七到十章可以看作是文本挖掘的應用技術。

總結

以上是生活随笔為你收集整理的宗成庆《文本数据挖掘》学习笔记：第一章绪论的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Channel Allocation H
下一篇： HDU - 5686-Problem B