當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理与文本检索

發(fā)布時間：2023/12/10 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了自然语言处理与文本检索小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今天開始把翟成祥教授的文本檢索課程做一下筆記。
說明：文章內(nèi)容來源于課程視頻和課程ppt。我只學(xué)習(xí)了課程沒有做習(xí)題。文章不是翻譯，是我對課程的理解。

nlp的主要內(nèi)容

　1 詞語處理(lexical analysis = part-of-speech tagging)：分詞與詞性標注
　2 句法分析(syntactic analysis):句法樹、依存關(guān)系分析
　3 語義分析(semantic analysis)：
　　Dog(d1).
　　Boy(b1).
　　Playground(p1).
　　Chasing(d1,b1,p1).
　　應(yīng)用：實體識別、關(guān)系識別、情感分析。

　4 推論(Inference)
　　Scared(b1)
　
　5 語用分析(pragmatic analysis = speech act)
　　語言分析的最高級形式
　　

nlp的難度

　原因1：nlp是用于人類交流的，不是用于機器交流。
　原因2：人類交流是會產(chǎn)生歧義的(ambiguity)，人類交流是有一個常識庫(common sense)的。
　詞級別的歧義。“設(shè)計”這個詞可以是一個動詞，也可以是一個名詞。這在詞性標注的時候就會產(chǎn)生歧義。例句：這座大樓的設(shè)計(名詞)很先進。這座大樓是他設(shè)計(動詞)的。“意思”這個詞在漢語中會有多層含義。例句1：這篇文章的中心意思是我們過馬路要遵守交通規(guī)則。例句2：這不過是我的一點小意思，您收下吧。這兩個句子中“意思”就有不同的含義。
　句法級別的歧義。例如“natural language processing”可以理解為“自然語言的處理”，也可以理解為“自然的語言處理”。再舉例：“A man saw a boy with a telescope”是一個男人拿著望遠鏡看到了一個男孩，還是一個男人看到了一個拿著望遠鏡的男孩。舉個中文例子“關(guān)心學(xué)校的老師”是說一個老師關(guān)心學(xué)校呢還是說有別人關(guān)心某個學(xué)校的老師。（中文例子來源于中國華文教育網(wǎng)）
　指代歧義(anaphora resolution)：指代不明。“John persuaded Bill to buy a TV for himself”.himself 是指Johb還是Bill。
　假想問題（Presupposition）：例如“He has quit smoking”。說明他曾經(jīng)抽過煙。
　以上問題，都說明要想正確理解自然語言，需要維護一個龐大的常識庫，以及分辨出上下文關(guān)系。

nlp目前能做到的

　這些資料是幾年前的。這些數(shù)字是基于某一數(shù)據(jù)集得來的，不用太在意這些數(shù)值。詞性標注：97%；句法分析：90%；語義分析：某些領(lǐng)域；推理：能做的事情不多；語用分析：特定的例子。

nlp用于文本搜索

　文本搜索引擎需要健壯、高效。

信息獲取的兩種方式

　push：推薦系統(tǒng)
　pull：搜索系統(tǒng)
　這兩種系統(tǒng)都會介紹，首先會介紹搜索系統(tǒng)（在下一篇）。
　
　
　

總結(jié)

以上是生活随笔為你收集整理的自然语言处理与文本检索的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Depth-first Search深度
下一篇： Ecshop小京东支付插件【小京东个人支