日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理笔记2-哈工大 关毅

發布時間:2025/3/15 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理笔记2-哈工大 关毅 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

文章目錄

  • 目錄
  • 前言
  • 自然語言處理概論(七)
  • 自然語言處理概論(八)
  • 數學基礎和語言學基礎(1)
  • 數學基礎和語言學基礎(2)
  • 數學基礎和語言學基礎(3)
  • 數學基礎和語言學基礎(4)
  • 數學基礎和語言學基礎(5)

前言

碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅

自然語言處理概論(七)

人工智能經典實驗,圖靈實驗,想象人和一塊機器隔著屏幕講話,如果,人無法判斷對面是機器還是人,那就說明這個機器通過了圖靈測試。
強調一點,人工智能的發展還是要依賴于對人大腦機理的了解,做出真正的人工智能。
涉及的學科:計算語言學,應用語言學,計算機科學。
可計算的方法來自于數學的理論基礎和人的心理學模型。
將人理解自然語言的步驟反著來一遍,就可以做出真正的自然語言理解。
現在想要在理論上做出大的創新,需要的是交叉學科,需要的是共同創新。
計算語言學側重于語言處理的基礎。自然語言理解側重于智能化人機接口。

自然語言處理概論(八)

漢語的特性:
大字符集的意音文字,同義多,詞態無變化,語法研究不規范。
漢語語言形式化和量化工作滯后。
力量較分散,分詞評測系統很難。
基礎理論講解:1概率統計2統計機器學習3人工智能4認知科學理論。
人工智能理論:1組合優化方法2邏輯方法
可研究的內容:1詞法分析2句法分析3上下文無關分析4語義分析5概念網絡6機器翻譯。
數學基礎與語言學基礎(一)
從小規模語料庫統計出語料信息然后在大規模語料庫里面使用。
個人的感受:
工程開發經驗以后,必須做一個精密的系統,收集分析情況,構造推斷模型。
概率論是我們的研究基礎,它研究的是隨機現象的規律,詞匯的分布也符合冪律。

數學基礎和語言學基礎(1)

1948年,熵出現,
H(P)=∑x屬于Ω?p(x)?logp(x)H(P)=\sum_{x 屬于 \Omega }-p(x)*log_p(x) H(P)=xΩ??p(x)?logp?(x)
不確定性的信息熵最大,完全確定的信息,信息熵最小。
馮志偉漢語信息量最大。
條件概率復習:
P(A|B),B為真時A發生的概率。

數學基礎和語言學基礎(2)

貝葉斯定理
P(A∣B)=P(A,B)P(B)=P(B∣A)?P(A)P(B)=argmaxAP(B∣A)?P(A)P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)*P(A)}{P(B)}=argmax_AP(B|A)*P(A)P(AB)=P(B)P(A,B)?=P(B)P(BA)?P(A)?=argmaxA?P(BA)?P(A)
應用,音字替換,貝葉斯定理,將一個大問題分解成兩個小的問題的乘積。
隨機變量,數學期望與方差。
無參數分布以及有參數分布。
極大似然估計和貝葉斯統計。
語言學基礎:
1漢語的分類:可以分為實,虛,嘆。
屬于黏著語。

數學基礎和語言學基礎(3)

語法分類,句法分析特點。
漢語句法分析的特殊性。
一個詞可以在句中擔任多種成分,切勿形態變化。
語言知識庫,一個關鍵核心部分,調整知識庫。
現代漢語語法信息詞典,語用層提示到語義層。

數學基礎和語言學基礎(4)

貝葉斯公式和一個核心。
oncology是核心。
hownet搭建了一個意元為基礎的框架。
定義意元很難,派生整個系統。

數學基礎和語言學基礎(5)

搜索系統,人性化提問。
大規模文本抽取答案。
語義相似度的計算,基于庫或者基于統計的方法。
機器可讀詞典。
二進制文件構造你的詞典,保護知識產權。

總結

以上是生活随笔為你收集整理的自然语言处理笔记2-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。