日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理笔记3-哈工大 关毅

發布時間:2024/1/1 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理笔记3-哈工大 关毅 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

文章目錄

  • 目錄
  • 前言
  • 漢語的分詞與頻度統計(1)
    • 漢語詞匯的特點
  • 漢語的分詞與頻度統計(2)
  • 漢語的分詞與頻度統計(3)
  • 漢語的分詞與頻度統計(4)
  • 漢語的分詞與頻度統計(5)
  • 漢語的分詞與頻度統計(6)
  • 漢語的分詞與頻度統計(7)

前言

碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅。

漢語的分詞與頻度統計(1)

語言分類{孤立語if?沒有附加詞,如漢語黏著語if?有附加詞,如日語曲折語if?形態變化,如英語語言分類\begin{cases} 孤立語&\text{if } 沒有附加詞,如漢語\\ 黏著語 &\text{if } 有附加詞 ,如日語 \\ 曲折語 &\text{if } 形態變化,如英語 \end{cases} ???????if?if?if??
詞是自然語言處理中的最小單位。
語速,詞,短語,句子,語群。

漢語詞匯的特點

結合緊密,使用頻繁,漢語的詞可以拆開。
調換位置,有限度地展開。
字串可以切分為詞串。
提出規劃。
漢語的自動分詞是他的重要組成部分,對他分詞很困難。
新領域老方法,新瓶裝舊酒。

漢語的分詞與頻度統計(2)

GB分詞規劃,提出了漢字的分詞規則。
四字詞語,一律是詞。切分歧義,未登錄詞,比較困難。
比如提高中國人民生活水平比較困難。
覆蓋型切分容易出問題,真歧義同屬切分型。
如何排除歧義呢?
蛋雞問題先有蛋。
分詞做詞切分,前驅字串和后驅字串。
詞法信息實例。
歧義字串單切,句法規則調整。
利用語義信息實例進行切分。
新出現的詞最困難,掛一漏萬。
上下文出現的條件,以及分詞系統。
互信息,極大方差,極大熵模型。

漢語的分詞與頻度統計(3)

主要分詞方法,正向最大匹配方法,幾個字符在一塊兒。去掉一個詞再試,逆向匹配方法。
雙向匹配法。
最小分詞方法:做的東西是給人看的。
創造力最豐富:20-40歲的時候。
不存在切分歧義的點:分段,計算最短路徑。圖的方法去理解這些東西。
詞網格方法:生成所有可能切分的方式。計算詞的概率。

漢語的分詞與頻度統計(4)

哈工大2005年第一名,做到95%。
語料庫,平衡語料庫。
生語料庫,半生不熟語料庫,句法分析所困。
語法分析十萬級的詞匯基本沒用。
共時語料庫,歷時語料庫。
發展時間一段時間以內,各種模型的正確率。
統計機器翻譯,統計翻譯模型。
中文信息語料庫:英語:Brown corpus。
Penn Treebank。句法樹,數學化。
雙語語料庫,法律文檔語料庫。
詞頻統計,構建詞匯模型的核心。詞典收詞的規律。

漢語的分詞與頻度統計(5)

《現代漢語頻率詞典》LJVAC華語共時語料庫。
建立了各地詞典。雙音節詞最多,定量分析。
用詞相同率和地域相關。
詞頻反映國家政策的變化。

漢語的分詞與頻度統計(6)

詞頻一個數表,高頻虛,低頻實詞。定量分析,占90%的詞低于10次。
zipf定律,f正比于1/r。
y=kxcy=kx^cy=kxc
指數定理,同取對數。除特高頻和特低頻以外都符合。
語料庫規律,可以推測句式規律。
1構語語言模型,模型多少詞enough2heap’s law。
反映了詞表長度與語料庫的關系。平滑算法更好的保障。

漢語的分詞與頻度統計(7)

其他的統計分布規律,頻度和頻度詞個數,推薦大家看,創世紀的第八天。
真正的科學,需要枯燥的處理一件事,需要把一件事情做到極致。

總結

以上是生活随笔為你收集整理的自然语言处理笔记3-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。