日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿

發布時間:2025/3/19 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者簡介:

陳運文,達觀數據創始人 & CEO,國際計算機學會(ACM)會員。

陳運文博士畢業于復旦大學計算機專業,目前是國際計算機學會(ACM)會員和中國計算機學會(CCF)高級會員,擁有多項國家專利及在國際頂級學術期刊和會議上發表多篇SCI論文,多次代表中國參加國際數據挖掘競賽并獲得 ACM 冠軍榮譽。曾擔任盛大文學首席數據官(CDO),騰訊文學高級總監、數據中心負責人,百度核心技術研發工程師,在大數據挖掘、用戶個性化建模、文本信息處理、推薦和搜索技術等方面有豐富的研發和管理經驗。

以下內容根據陳運文在神策2017數據驅動大會人工智能分論壇演講整理。

文本挖掘的主要目的是從非結構化文本文檔中提取有趣的、重要的模式和知識,提供價值。目前中國的文本挖掘企業服務還是比較早期的方向,但是隨著人工智能時代的到來,文本挖掘的重要性也逐漸被企業意識到。達觀與神策的戰略合作,也是構建大數據產業新生態的一次創新嘗試。這里主要分享達觀在人工智能方向的探索。


▌人工智能與企業大數據:

人工智能和大數據對企業應用的意義

企業希望通過數據挖掘技術提升效率,增加收入降低成本,但是具體如何做?首先要把數據基礎打好,盡可能地把數據采集全。其次現在很多挖掘還是人工來用手工的規則和腳本實現,但是我們認為計算機可以自動處理,并且做的更快、更好,減輕人的重復勞動,幫助企業提升效率。

我們有非常多的數據,圖象,語音等類型的內容需要操作,識別歸類和搜索。人工智能就是把這兩者聯結在一起,讓計算機自動完成從數據的采集到識別搜索以及歸類轉化。


常見數據類型以及其中文本數據的特點

從企業角度來說,數據并非只有傳統意義上的阿拉伯數字,如企業的財務報表,經營狀況,APP 日活……除了這些之外還有一些其他數據,比如文字型的數據:新聞內容,商品介紹,用戶評論,企業內部各種各樣的合同……達觀數據就是專業處理文字型數據的企業。

文字數據是信息的抽象提煉。這些數據其實是“一句話濃縮了很多內容”。文字數據的場景非常多,差別也很大。

讓計算機代替人工進行自動化做處理,可以更好地發揮價值,尤其是在一些垂直行業,如人事行業,法律行業,財務行業等,都有大量的文字資料。人工智能可以幫助企業節約大量人力物力成本。


文本挖掘技術的應用現狀

搜索引擎本身就是一個文字挖掘的人工智能系統,文字搜索創造了非常大的經濟效益。但這個領域機遇與挑戰并存,中文的文字處理困難重重,雖然我們每天都在流暢地使用中文,中文不嚴格的語法和隨意的行文特點,為計算機識別中文造成了相當大的難度。


▌人工智能技術三大挑戰:字詞關系、歧義語義、句式解析

讓計算機來做自然語言處理或者挖掘,有什么新的技術挑戰?首先來看一些具體的例子。

挑戰一:字詞關系的處理

漢語往往通過一個詞語表達一個基本概念。但是讓計算機理解字詞之間的關系很困難,因為計算機需要挖掘詞語之間的關系。比如說相關詞,同義詞,甚至還有單詞。進一步還要做同義詞、反義詞、近義詞的關系和挖掘,還可能跨語言,分析簡稱等。

比如“中華人民共和國”是一個大詞,它由很多詞構成?!肮埠蛧薄ⅰ爸袊?、甚至“中”,都和它的意思很接近。那么計算機如何判斷“中”是表達中華人民共和國,還是表達河南方言的“好”?

還有局部轉義問題。比如說巧克力囊腫是一種常見的腫瘤名稱,但是把巧克力拿出來是一個食物,再如球鞋,運動鞋,跑步鞋需要判斷什么時候是同義詞,什么時候是有差別的。


挑戰二:歧義語義的理解

中文復雜的歧義,讓計算機需要像人一樣閱讀文章。

像“咬死了獵人的狗”,這句話一種是主語被省略了,主語可能是一只老虎,它咬死獵人的狗,這時狗是賓語。還有一種情況狗咬死了獵人。需要結合上下文才能理解內容。

這些代表著計算機處理詞語歧義,需要很多算法解決文章詞法、句法、上下文的理解難題等等。


挑戰三:多樣化的句式結構的解析

搜索引擎經常需要處理意思相同,但是文字表達方式不一樣的情況。這種情況下我們常見的處理方法叫做語義歸一化,這也是處理搜索引擎詞時經常遇到的問題。常見的做法是通過定位和調整主謂賓定狀補等句子元素,生成句法依存樹來理解句子結構。

“達觀是技術驅動的企業”這句話中達觀是主語還是謂語?通過這樣的解析,可以理解這句話的意思。計算機將語言拆開來,揉碎了,像人一樣先進地閱讀文字。


▌追本溯源:文本挖掘技術發展歷程

1956年的達特矛斯會議,為了實現機器翻譯和密碼破譯,計算機大牛們提出人工智能,并明確了人工智能技術成熟的兩個標志性目標:?

(1)在國際象棋上可以戰勝人類

(2)在機器翻譯上能夠超越人類

大家都知道了目標一早已經完成。所有的棋類中圍棋是最后一個被攻克的。但是目標二仍然未能完全實現,這也可見語言理解的復雜度。


文本挖掘技術發展歷程和現階段流行方法

關于自然語言處理,學術界有兩個派別:

1.?理性派,結構主義,認為所有語言其實都有潛在內生結構,都是有內在的語法。

2.?經驗派,功能主義,認為只要完成某一個功能就可以了,計算機完全不需要理解人說什么。

早期人工智能剛剛提出來,符號主義流行。60 年代時用了很多的詞典和符號規則做自然語言的處理,但是后來發現這樣翻譯走不通。在 70-80 年代,在語法規則的基礎上增加了語言模型,當時很多語言專家做自然語言處理時遇到非常嚴峻的挑戰,因為語言模型并沒有嚴格的規律可言,很多表達都是習慣使然。

90年代開始,統計學習模型異軍突起,當前大量自然語言處理的應用都是基于統計學習的模型。夠講大數據也是因為現在已經積累的文本數據非常多,我們每天在各種平臺上看到、寫下的文字數據都可以成為計算機訓練的語料,通過訓練能讓計算機發現語言的規律。

2010 年迎來了深度學習的浪潮。深度學習是經驗派功能主義的典型表現。近幾年知識圖譜非常流行,它帶有結構,所以是理性派結構主義的表現。目前很多主流方法是兩者做結合,統計學習方法加上一些結構,才能夠更好的理解、處理文字內容。


文本結構解析的三個層次

現在流行的方法從結構的角度來說分三個層次:

1.詞語級 ?2.句法級 ?3.篇章級

詞匯級有很多具體的模塊開發,結構分析包括句子結構之間的關系等。想想我們學漢語的時候先認識基本字,再找詞。在漢語里面單詞表現很弱,兩個字或者三個字才構成一個有表達力的詞。組詞之后是造句,很多句話構成了一篇作文。同樣,讓計算機來閱讀文字從結構角度來說是相似的,先讓計算機看字、詞,然后理解句子的意思,最后理解整篇文章每個段落的含義。

知識圖譜的作用是沉淀領域知識,利用結構化的背景知識理解文本語義。例如律師在閱讀法律的文章時,通過積累的律行業相關知識,建立起行業領域知識的知識圖譜,完成文字閱讀。知識圖譜的核心在于構建{實體E - 屬性A - 關系R}三元素。


確保文本挖掘技術效果的兩個要點

  • 要點 1:因地制宜,針對特定應用場景定制語言模型

雖然用的都是漢語或英語,但在在不同的場景需要的方法有很大不同。例如:讓計算機自動提取合同文本信息,自動判斷合同文本中關聯的要素和法律風險。在做具體的專家文本判別時,需要建立這些具體的行業文本的知識庫。

目前很多企業將文本分析技術應用于評論分析。企業每天收到網上用戶留下的成千上萬條評論意見,其中可能有是競爭對手的情報信息和評論信息,且通常有大量的省略和簡稱,如小米手機第六代通常說米6,沒有專業領域知識很難解讀。

口語和書面語的處理方式也需要區別對待,書面語是常寫在內部文件中,但是通常彈幕、網絡評論都是口語表達。

  • 要點 2:持續的學習能力,?確保泛化能力始終提升

機器學習的好處是可以通過迭代持續優化。在文本挖掘中很多企業的挖掘都是依照規則的方法,但長期來看這種方法泛化能力或自主學習能力不夠。通過機器學習提升挖掘的效果,是計算機處理模塊很重要的能力。


▌文本挖掘基礎性應用類型劃分

計算機不像人一樣真的可以理解文字,很多時候計算機輸入一段字庫,輸出相應的結構。一邊是編碼,一邊是解碼。

文本挖掘基礎應用的類型可以分為四大類:?

抽取:計算機自動解析文本,需要識別關鍵要素。例如,當計算機閱讀一份法律合同文書時,能夠識別里面的判決書編號、被告人、辯護人、判決依據等等,并從文本中提取出關鍵要素進行結構化處理。抽取對于文本密集型產業尤其有價值。

劃分:舉一個應用的案例,企業拿到大量客戶的意見,需要判斷意見的好壞,不同的意見需要后續給哪個部分負責處理,這些是典型評論意見觀點的識別和觀點劃分的應用。

轉換:計算機需要進行語言的轉換,把文本轉換成更正確的語言方式。例如下面這份刑事裁定書里面有很多不符合語法習慣的地方,“政治權力”“云南省趨近市”這些都是錯誤的表達,計算機能智能的幫人們發現并修改錯誤。

合成:計算機寫作也許是未來比較熱門的行業。目前的寫作還是以模板為主,但未來我們希望除了模板外,計算機還可以幫助人們修改潤色文章。甚至可以擺脫模板的方式,通過“閱讀”大量的文字來實現機器寫作。


▌文本挖掘技術的延伸應用

企業的一些應用需求后,還可以進一步延伸。比如大家每天都在用的搜索和推薦都是進一步的應用。

搜索其實是非常典型的自然語言處理的應用。它的核心技術有兩部分,其一是對文本語義的深入理解,第二是解決搜索時間的性能問題。通常索引資料庫很大,可能有上千億的內容,在搜索的過程中我們不需要計算機一個一個找,而是在很短的時間內,用零點幾秒解決響應的問題。這些需要用特殊的數據結構來完成。

另外,在搜索時如何讓計算機幫助人來匹配更多優質資源,需要做更多語義的延伸。同一句話不同的人可以用不同的語言方式來表達。計算機幫助人做語義的擴展,需要了解詞和詞,句子和句子之間的關系。

除搜索之外,個性化推薦也是語義理解的重要的應用。做內容和人的連接時,更好的完成用戶畫像需要分析出哪一個人之前看過這些內容,它的語義如何。文本挖掘技術在提升企業的運營質量方面發揮了很大作用,達觀數據的個性化推薦引擎在幫助企業用戶提升點擊率、留存以及關鍵指標上都有著明顯的效果。

達觀數據和神策數據的合作,旨在優化企業級大數據服務,挖掘數據價值,推動產品層面的深度融合。未來雙方也將共同為大數據 + 人工智能創造價值。


與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。