當前位置：首頁 > 运维知识 > windows >内容正文

windows

「最有用」的特殊大数据：一文看懂文本信息系统的概念框架及功能

發布時間：2025/3/15 windows 23 豆豆

生活随笔收集整理的這篇文章主要介紹了「最有用」的特殊大数据：一文看懂文本信息系统的概念框架及功能小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

導讀：作為一種特殊的大數據，文本數據泛指各種以自然語言形式存在的數據。

目前，我們正處在一個以大數據與人工智能技術為核心的新的工業革命時代，其主要特征是大量各種可利用的數據可以視為一種特殊的生產資料，經過高效的智能數據分析與挖掘以及機器學習等人工智能技術處理后，這些數據可以產生巨大價值，創造智能。

作者：翟成祥

如需轉載請聯系大數據（ID：hzdashuju）

01 一種特殊的大數據

大數據可以用兩種方式創造智能。

其一，大量的數據可以作為訓練數據，讓監督式機器學習方法特別是深度學習，發揮巨大潛力，從大量數據中學得智能，從而使智能機器能夠大量代替人力來完成各種任務（此類智能系統可稱為自主型智能系統）。
例如，大量的可用于訓練無人駕駛車的數據可以很自然地從人的駕駛過程中通過傳感器獲得，使機器可以自動駕駛車輛；又如，大量的客戶服務記錄數據，可以用來訓練客戶服務機器人，自動回答客戶的問題。
其二，大量的數據可以作為對我們生活的世界的感知和觀察的結果的描述，用數據挖掘或非監督式機器學習方法對數據加以處理，獲得關于被觀察系統的各種有用知識，從而拓展人類的感知能力，增強人的智能（此類系統自身往往智能程度不高，可以稱為助理型智能系統）。
例如，大量電子病歷數據可以用來構造一個醫生或病人的輔助診療的智能助手系統；又如，大量金融數據、社交媒體數據以及新聞數據可以用來構造金融方面的決策支持系統。

比較兩類基于大數據的智能系統，自主型智能系統能完成的任務不能太復雜（因機器需獨立完成任務），且對數據的要求較高，需要有標注的數據，而獲取極大量的高質量的標注數據在很多問題領域并不現實，所以這類應用目前只能在少量的特定應用領域起作用。

而且，由于機器的智能主要來自于人工標注的數據，機器的智能不容易超越人的智能。

相反，助理型智能系統由于不需要有標注的數據，任何數據都可以利用，所以在任何領域都可以起作用，有著非常廣泛的應用。而且，有趣的是，盡管助理型智能系統本身的智能不高，甚至沒有太多智能，但這樣的系統一旦與人結合，人與系統相加以后的綜合智能往往能大大超越人的智能。

這種情形下，助理型智能系統的功能有與顯微鏡及望遠鏡的功能相似之處，即它們都可以拓展人對世界的感知能力，從而增強人的智能，特別是有助于在復雜應用領域優化決策。

作為一種特殊的大數據，文本數據泛指各種以自然語言形式存在的數據，包括萬維網頁、新聞報道、社交媒體、產品評論、科學文獻、政府文件等；語音和視頻數據，經語音識別后也能產生文本數據。文本數據有著極其廣泛的應用。

第一，文本數據可被視為人，作為一個富有智能的主觀“傳感器”所產生的數據，它可以與所有其它非文本數據相結合，共同支持助理型智能系統；又因為任何應用領域都會涉及相關的人群，人們會以各種形式產生可用的文本數據，所以文本數據在任何領域都會有應用價值。
第二，由于人的主觀性，文本數據富含關于人的觀點、偏好以及需求等信息，所以特別有助于挖掘關于人的各種屬性，使智能系統可以更好地理解用戶，從而可以對每一個特定的用戶進行優化服務（即個性化服務）。
第三，由于文本數據是人們用自然語言交流和通信的產物，它的語義很豐富，相比非文本數據來說，文本數據更加直接地表達知識。從數據挖掘的角度看，更容易讓計算機自動獲取知識。然而，由于自然語言是為人類通信而設計的，需要有大量的常識及推理能力，才能準確理解，所以盡管自然語言理解研究已取得很大進展，計算機目前還不能全面理解不受限的自然語言的結構和語義，所以在所有文本數據的應用中，必須充分利用人的自然語言理解能力，讓計算機成為一個智能助理。

02?從文本中挖掘數據

在過去的20年里，我們經歷了在線信息的爆炸性增長。根據加利福尼亞大學伯克利分校2003年的一項研究[Lyman等2003]：

……世界每年產生1～2EB（exabyte，艾字節）的不同信息，這對于地球上的男人、女人和孩子來說，每人大約250MB(megabyte,兆字節)。各類印刷文檔僅占總量的0.03％。

大量的在線信息是文本信息（即自然語言文本）。例如，根據上面引用的伯克利的研究：

報紙每年發表25TB（terabyte，太字節或稱兆兆字節）內容，雜志發表10TB內容……辦公文檔包含195TB內容。據估計，每年發送的電子郵件總數達到6100億封，包含11000TB信息。

當然，還有博客文章、論壇帖子、推文、科技文獻以及政府文件等。Roe［2012］將電子郵件數量從2003年的6100億封更新為2010年的107萬億封。根據IDC最近的一份報告[Gantz和Reinsel 2012]，2005~2020年，數字宇宙將增長300倍，規模達130EB~40000EB。

一般來說，各種類型的在線信息都是有用的，但由于以下原因，文本信息起著特別重要的作用，可以說是最有用的一種信息。

文本（自然語言）是人類知識最自然的編碼方式。因此，大多數人類的知識都是以文本數據的形式編碼的。例如，科學知識幾乎都整理在科學文獻中，而技術手冊包含如何操作設備的詳細說明。
文本是人們遇到的最常見的信息類型。事實上，一個人每天產生和消費的大部分信息都是文本形式的。
文本是最具表達能力的信息形式。它可以用來描述其他媒體，如視頻或圖像，甚至圖像搜索引擎（如Google和Bing支持的圖像搜索引擎）也經常依靠匹配圖像周圍的文本來檢索“匹配”用戶關鍵字查詢的圖像。

網絡文本信息的爆炸式增長強烈需要能夠提供以下兩種相關服務的智能化軟件工具，幫助人們管理和利用文本大數據。

1. 文本檢索

文本數據的增長使得人們無法及時消費數據。由于文本數據對我們積累的大部分知識進行了編碼，因此通常不會被丟棄，從而導致大量文獻數據的積累，這些文獻數據現在超出了任何個人能夠處理的能力范圍，即便只是簡單瀏覽。

在線文本信息的快速增長也意味著沒有人能夠消化每天產生的所有新信息。因此，迫切需要開發智能文本檢索系統，以幫助人們快速、準確地獲取所需的相關信息。這種需求促進了近期網絡搜索行業的迅猛發展。

事實上，像Google和Bing這樣的網絡搜索引擎現在已經成為我們日常生活中不可或缺的一部分，每天都有數以百萬計的查詢。通常，在大量文本數據存在的地方，搜索引擎都是有用的（諸如桌面搜索、企業搜索或特定領域中的文獻搜索，例如PubMed）。

2. 文本挖掘

文本數據是人類為了交流而產生的，所以它們通常含有豐富的語義內容，并且通常包含有價值的知識、信息、觀點和個人的喜好。它們提供了很多機會來發掘對于許多應用有用的各種知識，特別是關于人類意見和偏好的知識。這些知識通常直接在文本數據中表達。

例如，現在人們習慣于通過產品評論、論壇討論和社交媒體文本等包含主觀見解的文本數據來獲取有關他們感興趣的話題的觀點，并優化各種決策任務，如購買產品或選擇一項服務。

同樣，由于信息的巨大規模，人們需要智能的軟件工具來幫助發現相關知識以優化決策或幫助他們更有效地完成任務。盡管支持文本挖掘的技術還沒有像支持文本獲取的搜索引擎那么成熟，但近年來在這方面已經取得了顯著的進展，專業的文本挖掘工具已經在許多應用領域得到了廣泛使用。

結構化數據采用定義良好的模式，使計算機處理起來相對容易，與結構化數據相比，文本沒有明顯的結構，所以計算機在上述智能軟件工具開發過程中需要處理和理解文本編碼的內容。

目前的自然語言處理技術還沒有達到使計算機能夠精確理解自然語言文本的水平（這也是人類往往應該參與到處理過程的主要原因），但是采用許多不同的統計和啟發式方法來管理和分析文本數據已經在過去的幾十年中得到了發展。它們通常非常健壯，可以用于對任何自然語言、任何主題的文本數據進行分析和管理。

上面討論的兩種服務（即文本檢索和文本挖掘）在概念上對應于分析任何“大規模文本數據”過程中的兩個自然步驟，如圖1-1所示。

▲圖1-1 文本檢索與數據挖掘是分析大規模文本數據的兩項主要技術

盡管原始文本數據可能很大，但是具體的應用通常只需要少量最相關的文本數據，因此在概念上，任何應用的第一步應該是根據具體的應用或者決策去識別相關的文本數據，避免對大量不相關文本數據做不必要的處理。

將原始大規模文本數據轉換成規模更小但高度相關的文本數據的第一步通常是在用戶幫助下利用文本檢索技術來完成（例如，用戶可以使用多個查詢來收集所有相關文本數據以用于決策問題）。在這第一步中，主要目標是將用戶（或應用程序）與最相關的文本數據連接起來。

一旦獲得一個小規模的最相關文本數據，我們需要對文本做進一步的分析來幫助用戶消化文本數據中的知識和模式。這是文本挖掘的一個步驟，其目標是從文本數據中進一步發現知識和模式，以支持用戶的任務。

此外，需要對任何發現的知識的可信度進行評估，所以用戶通常需要返回到原始的文本數據中去獲得用來解釋所獲得知識的上下文，并通過上下文信息驗證知識的可信度。

因此，作為主要用于文本獲取的搜索引擎系統，也必須在任何基于文本的決策支持系統中提供知識來源。因此，這兩個步驟在概念上是交錯的，一個完整的智能文本信息系統必須在一個統一的框架中進行整合。

值得指出的是，在“大數據”的背景下，文本數據與其他類型的數據是非常不同的，因為它通常是由人類直接生成的，通常也意味著要被人類消費。相反，其他數據往往是機器生成的（例如通過使用各種物理傳感器收集的數據）。

由于人類可以比計算機更好地理解文本數據，所以人類參與挖掘和分析文本數據的過程絕對是至關重要的（比其他大數據應用程序更為必要）。如何最佳地將人與機器之間的工作分開從而優化人與機器之間的協作，以最少的人力來最大化其“智能組合”，是所有文本數據管理和分析應用中的一個普遍挑戰。

以上討論的兩個步驟可以被認為是文本信息系統協助人類的兩種不同的方式：

信息檢索系統幫助用戶從大量的文本數據中找到解決具體應用問題所需的最相關文本數據，從而有效地將大規模原始文本數據轉換成可以被人類更容易處理的規模較小的相關文本數據；
而文本挖掘應用系統可以幫助用戶分析文本數據中的模式，以提取和發現對于完成任務或進行決策直接有用的、可操作的知識，從而為用戶提供更直接的任務支持。

03 文本信息系統的功能

從用戶的角度來看，文本信息系統（TIS）可以提供三種不同但相關的功能，如圖1-2所示。

▲圖1-2 信息獲取、知識獲取和文本組織是文本信息系統的三個主要功能，文本組織對信息獲取和知識獲取起到支撐作用，而知識獲取也常被稱為數據挖掘

1. 信息獲取（information access）

這種能力使用戶可以在需要時獲取有用的信息。有了這個能力，文本信息系統可以在正確的時間連接正確的信息和正確的用戶。例如，搜索引擎使得用戶能夠通過查詢來獲取文本信息，而推薦系統可以在發現可用的新信息項目時將相關信息推送給用戶。

由于信息獲取的主要目的是將用戶與相關信息聯系起來，提供這種能力的系統通常只對文本數據進行最小限度的分析，只需滿足將相關信息與用戶的信息需求匹配，而原始信息項目（例如，網頁）通常以其原始形式交付給用戶，但是也經常提供項目的摘要。

從文本分析的角度來看，用戶通常需要閱讀信息項目來進一步消化和利用所傳遞的信息。

2. 知識獲取（knowledge acquisition）或文本分析（text analysis）

這種能力使得用戶能夠獲得文本數據中蘊含的有用知識。如果沒有對大規模的數據進行合成和分析，用戶通常不容易獲得這些知識。文本信息系統可以分析大量的文本數據以發現文本中隱藏的有趣模式。具有知識獲取能力的文本信息系統可以被稱為分析引擎。

例如，搜索引擎可以將產品的相關評論返回給用戶，分析引擎可以使用戶直接獲得關于產品的主要的正面或負面意見，并比較人們對多個類似產品的意見。提供知識獲取能力的系統通常需要更詳細地分析文本數據，綜合來自多個文本文檔的信息，發現有趣的模式，創造新的信息或知識。

3. 文本組織（text organization）

此能力使系統能夠用有意義的（主題）結構來注釋一組文本文檔，從而可以連接分散的信息，使用戶可以根據該結構在信息空間中巡覽。

雖然這樣的結構可以被認為是從文本數據中獲得的“知識”，并且直接對用戶有用，但是通常它們僅用于促進信息獲取或知識獲取，或者兼而有之。

從這個意義上說，文本組織的能力在文本信息系統中起到了支持作用，使得信息獲取和知識獲取更加有效。例如，添加的結構可以允許用戶使用結構上的約束進行搜索，或者根據結構進行瀏覽。考慮到結構的約束，結構也可以用來進行詳細的分析。

信息獲取可以進一步分為兩種模式：拉取和推送。在拉取模式下，用戶主動從系統中“拉”出有用的信息，在這種情況下，系統是被動的，等待用戶提出請求，然后系統用相關信息回應。

當用戶具有臨時信息需求（即臨時需要關于產品的意見）時，這種信息獲取模式通常非常有用。例如，像Google這樣的搜索引擎通常為用戶提供拉取模式信息獲取。在推送模式下，系統主動向用戶“推”（推薦）它認為對用戶有用的信息。

當用戶具有相對穩定的信息需求（例如，一個人的愛好）時，推送模式常常工作良好；在這種情況下，系統可以“預先”知道用戶的偏好和興趣，從而能夠向用戶推薦信息而不需要用戶采取主動。

拉取模式還包括兩種互補的方式讓用戶獲得相關信息：查詢和瀏覽。在查詢的情況下，用戶通過（關鍵字）查詢指定信息需求，系統將該查詢作為輸入并返回估計與查詢相關的文檔。在瀏覽的情況下，用戶簡單地沿著將信息項目鏈接在一起的結構進行巡覽并逐漸地獲得相關信息。

由于查詢也可以被看作是一步即導航到一組相關文檔，很顯然，瀏覽和查詢可以自然地交織。事實上，網絡搜索引擎的用戶通常交錯進行查詢和瀏覽。

從文本數據中獲取知識通常是通過文本挖掘過程來實現的。文本挖掘可以被定義為挖掘文本數據以發現有用的知識。數據挖掘社區和自然語言處理（Natural Language Processing，NLP）社區都開發了文本挖掘的方法，但兩個社區對這個問題的看法往往略有不同。

從數據挖掘的角度來看，我們可能將文本挖掘視為挖掘一種特殊的數據，即文本。遵循數據挖掘的總體目標，文本挖掘的目標自然會被視為發現和提取文本數據中的有趣模式，其中可能包括潛在主題、主題趨勢或異常值。

從NLP的角度來看，文本挖掘可以被看作是理解自然語言文本的一部分，將文本轉化為某種形式的知識表示，并基于提取的知識進行有限的推理。因此，一個主要的任務是執行信息抽取（information extraction），它的目標是識別和提取所涉及的各種實體（例如人員、組織和位置）及其關系（例如誰與誰見面）。

實際上，任何文本挖掘應用都可能涉及模式發現（即數據挖掘角度）和信息抽取（即NLP角度）。信息抽取豐富了文本的語義表示，使得模式發現算法能夠生成語義上更有意義的模式，而不是直接處理文本的字或字符串表示。

文本挖掘的應用可以被分類為直接應用和間接應用。直接應用中被發現的知識將被用戶直接消費，而間接應用中發現的知識不一定直接對用戶有用，但可以通過提供更好的支持間接地幫助用戶獲取信息。知識獲取也可以基于發現了什么知識來進一步分類。

然而，由于“知識”涉及的范圍廣泛，所以不可能使用少量的類別來覆蓋所有的形式。盡管如此，我們仍然可以找出幾個常見的類別。例如，可以發現的一種知識類型是一組隱藏在文本數據中的主題或子主題，它們可以作為文本數據中主要內容的簡明摘要。另一種可以從用戶生成的主觀性文本中獲得的知識是關于某個主題的觀點的總體情感極性。

04 文本信息系統的概念框架

從概念上講，文本信息系統可能由幾個模塊組成，如圖1-3所示。

▲圖1-3 文本信息系統的概念框架

首先，需要基于自然語言處理技術的內容分析模塊。該模塊允許系統將原始文本數據轉換為更有意義的表示，以便在搜索引擎中可以更有效地與用戶的查詢匹配，在文本分析中可以更有效地進行處理。

目前的NLP技術主要依賴于統計機器學習，以有限的語言知識作為輔助，進行不同深度的文本數據理解；淺層技術是健壯的，但更深層的語義分析只適用于非常有限的領域。一些文本信息系統能力（如摘要）會比其他能力（如搜索）需要更深的NLP。

大多數文本信息系統使用非常淺的NLP，其中文本將被簡單地表示為“詞袋”，詞是表示的基本單位，并且文本中詞的順序被忽略（盡管保留了詞頻）。然而，也可以使用更復雜的表示，可以基于識別出的實體、關系或其他更深層的文本理解技術。

以內容分析為基礎，文本信息系統中有多個組件以不同的方式幫助用戶。以下是管理和分析文本信息的一些常見功能。

1. 搜索（search）

接收用戶查詢并返回相關文檔。文本信息系統中的搜索組件通常稱為搜索引擎。網絡搜索引擎是最有用的搜索引擎之一，它使用戶能夠有效和高效地處理大量的文本數據。

2. 過濾/推薦（filtering/recommendation）

監督傳入的數據流，確定哪些項目與用戶的興趣相關（或不相關），然后向用戶推薦相關項目（或者過濾掉不相關的項目）。

根據系統是否側重于識別相關項目或不相關項目，這個組件可以被稱為推薦系統（其目標是向用戶推薦相關項目）或者過濾系統（其目標是過濾掉非相關項目，允許用戶只保留相關項目）。文獻推薦器和垃圾郵件過濾器分別是推薦系統和過濾系統的典型例子。

3. 分類（categorization）

將文本對象劃分到一個或多個預定義類別，其中類別可根據應用程序而變化。文本信息系統中的分類組件可以用各種有意義的類別對文本對象進行注釋，從而豐富了文本數據的表示，進一步提升了文本分析的效率和深度。類別也可用于組織文本數據，便于文本訪問。

將文章分類為一個或多個主題類別的主題分類器和將句子分類為正面、負面或中性的情感極性的情感標注器都是文本分類系統的具體例子。

4. 摘要（summarization）

對一個或多個文本文件生成一個簡要的內容摘要。摘要減少了人們消化文本信息的負擔，也可以提高文本挖掘的效率。生成摘要的組件稱為摘要器。新聞摘要和意見摘要都是摘要器的實例。

5. 主題分析（topic analysis）

提取并分析給定文檔集合的主題。主題直接促進了用戶對文本數據的理解，并支持瀏覽文本數據。當與相關的非文本數據如時間、地點、作者等元數據相結合，主題分析可以產生許多有趣的模式，如主題的時間趨勢、主題的時空分布和作者的主題概況。

6. 信息抽取（information extraction）

從文本中提取實體、實體之間的關系或其他“知識單元”。信息抽取組件可以構建實體關系圖。這種知識圖有多種用途，包括支持導航（沿著圖的邊和路徑）以及進一步應用圖挖掘算法去發現有趣的實體關系模式。

7. 聚類（clustering）

發現相似文本對象（例如術語、句子及文檔等）的群組。聚類組件在幫助用戶探索信息空間方面起著重要的作用。它使用經驗數據來創建有意義的結構，這對于瀏覽文本對象和快速理解大型文本數據集都非常有用。它對識別無法與其他對象聚集的異常對象也是非常有用的。

8. 可視化（visualization）

以可見的方式顯示文本數據中的模式。可視化組件對于吸引人們參與發現有趣模式的過程非常重要。由于人類非常善于識別視覺模式，所以將各種文本挖掘算法產生的結果可視化有很大需求。

關于作者：翟成祥（Chengxiang Zhai），信息檢索與數據挖掘領域世界知名學者，ACM會士、ACM杰出科學家，伊利諾伊大學香檳分校計算機科學系以及圖書館與信息科學研究生院、基因生物學研究所和統計系教授、Willet學者。研究興趣包括信息檢索、文本挖掘、自然語言處理、機器學習、生物醫學與健康信息學以及智能教育信息系統。

本文摘編自《文本數據管理與分析：信息檢索與文本挖掘的實用導論》，經出版方授權發布。

延伸閱讀《文本數據管理與分析》

點擊上圖了解及購買

轉載請聯系微信：DoctorData

推薦語：信息檢索與數據挖掘領域世界知名學者、ACM Fellow、美國伊利諾伊大學香檳分校(UIUC)翟成祥教授厚積薄發之作，基于UIUC數據管理與分析相關課程多年的積累，覆蓋作者兩門在線課程“文本檢索與搜索引擎”和“文本挖掘與分析”的主要內容。

「大數據」內容合伙人之「鑒書小分隊」上線啦！

最近，你都在讀什么書？有哪些心得體會想要跟大家分享？

數據叔最近搞了個大事——聯合優質圖書出版商機械工業出版社華章公司發起鑒書活動。

簡單說就是：你可以免費讀新書，你可以免費讀新書的同時，順手碼一篇讀書筆記就行。詳情請在大數據公眾號后臺對話框回復合伙人查看。

有話要說?

Q:?從文本中能挖出哪些價值？

歡迎留言與大家分享

猜你想看??

作品拍賣價碾壓畢加索，沒有靈魂的AI靈魂畫手有怎樣的未來？
一文看懂數據清洗：缺失值、異常值和重復值的處理
2019上半年，457635位大數據用戶最喜愛的10本書
發際線預警！10本程序員必讀燒腦經典，你敢挑戰一本嗎？

更多精彩??

在公眾號對話框輸入以下關鍵詞

查看更多優質內容！

PPT?|?報告?|?讀書?|?書單?|?干貨?

大數據?|?揭秘?|?Python?|?可視化

AI?|?人工智能?|?5G?|?區塊鏈

機器學習?|?深度學習?|?神經網絡

合伙人?|?1024?|?段子?|?數學?|?高考

據統計，99%的大咖都完成了這個神操作

覺得不錯，請把這篇文章分享給你的朋友

轉載 / 投稿請聯系：baiyu@hzbook.com

更多精彩，請在后臺點擊“歷史文章”查看

點擊閱讀原文，了解更多

總結

以上是生活随笔為你收集整理的「最有用」的特殊大数据：一文看懂文本信息系统的概念框架及功能的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：什么是机器学习？有哪些分类？到底有什么用
下一篇：贯穿计算机系统所有方面的重要概念，终于有