日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

nlp1-介绍

發布時間:2024/7/5 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 nlp1-介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

能做什么?

  • 自然語言處理:
    • 如何讓計算機能夠自動或半自動地理解自然語言文本,懂得人的意圖和心聲?
    • ?如何讓計算機實現海量語言文本的自動處理、挖掘和有效利用,滿足不同用戶的各種需求,實現個性化信息服務?

基本概念

  • 語言學:研究語言的本質、結構和發展規律的科學。

    • 類別
      • 歷時語言學 (diachronic linguistics)或稱歷史語言學 (historical linguistics)、
      • 共時語言學 (synchronic linguistics)、
      • 描述語言學 (descriptive linguistics)、
      • 對比語言學(contrastive linguistics)、
      • 結構語言學 (structural linguistics) 等等。
  • 語音學 (phonetics)

    • 研究人類發音特點,特別是語音發音特點,并提出各種語音描述、分類和轉寫方法的科學。
    • 包括:
      • (1)發音語音學(articulatory phonetics),研究發音器官如何產生語音;
      • (2)聲學語音學(acoustic phonetics),研究口耳之間傳遞語音的物理屬性;
      • (3)聽覺語音學(auditory phonetics), 研究人通過耳、聽覺神經和大腦對語音的知覺反應
  • 計算語言學(Computational Linguistics)CL

    • 通過建立形式化的計算模型來分析、理解和生成自然語言的學科,是人工智能和語言學的分支學科。
    • 與內容接近的學科自然語言處理相比較,計算語言學更加側重基礎理論和方法的研究。
  • 自然語言理解(Natural Language Understanding, NLU)

    • 自然語言理解是探索人類自身語言能力和語言思維活動的本質,研究模仿人類語言認知過程的自然語言處理方法和實現技術的一門學科。它是人工智能早 期研究的領域之一,是一門在語言學、計算機科學、 認知科學、信息論和數學等多學科基礎上形成的交叉 學科。
  • 智能?

    • 關于“理解”的標準
      • ? 如何判斷計算機系統的智能?
        • 與有意識的個體(人)比較如何?
        • 表現
        • 反應
        • 相互作用
      • 方法:圖靈設計的“模仿游戲” - 圖靈實驗(Turing test)
        • 仍有爭議
        • 不易進行
        • 只能說從表現上來看和人相似
  • 自然語言處理nlp

    • 自然語言處理是研究如何利用計算機技術對語言文本(句子、篇章或話語等)進行處理和加工的一門學科,
    • 研究內容:包括對詞法、句法、語義和語用等信息的識別、分類、提取、轉換和生成等各種處理方法和實現技術。
  • 三個不同的語系

    • ? 屈折語(fusional language/ inflectional language): 用詞的形態變化表示語法關系,如英語、法語等。
    • ? 黏著語(agglutinative language): 詞內有專門表示語法意義的附加成分,詞根或詞干與附加成分的結合不緊密,如日語、韓語、土耳其語等。
    • ? 孤立語(analytic language)(分析語, isolating language): 形態變化少,語法關系靠詞序和虛詞表示,如漢語。
  • 中文信息處理:針對中文的自然語言處理技術

計算語言學也稱自然語言處理或自然語言理解——人類語言技術HLT

4.研究內容

  • 機器翻譯 (Machine translation, MT):實現一種語言到另一種語言的自動翻譯。

    • ?應用:文獻翻譯、網頁輔助瀏覽等。
  • 信息檢索

    • 信息檢索也稱情報檢索,就是利用計算機系統從大量文檔中找到符合用戶需要的相關信息。
  • 自動文摘

    • 將原文檔的主要內容或某方面的信息自動提取出來,并形成原文檔的摘要或縮寫
    • 觀點挖掘
  • 問答系統 (Question-answering system)

    • 通過計算機系統對人提出的問題的理解,利用自動推理等手段,在有關知識資源中自動求解答案并做出相應的回答。問答技術有時與語音技術和多模態輸入/輸出技術,以及人機交互技術等相結合,構成人機對話系統 (man-computer dialogue system)
  • 信息過濾 (Information filtering)

    • 通過計算機系統自動識別和過濾那些滿足特定條件的文檔信息。
  • 信息抽取 (Information extraction)

    • 從指定文檔中或者海量文本中抽取出用戶感興趣的信息。
    • 實體關系抽取 (entity relation extraction)。
    • 社會網絡 (social network)
  • 文檔分類 (Document categorization)

    • 文檔分類也叫文本自動分類 (Text categorization / classification) 或信息分類(Information categorization / classification),其目的就是利用計算機系統對大量的文檔按照一定的分類標準(例如,根據主題或內容劃分等)實現自動歸類。
    • 情感分類(Sentimental classification)
    • ? 應用:圖書管理、情報獲取、網絡內容監控等
  • 語音識別 (automatic speech recognition, ASR)

    • 將輸入語音信號自動轉換成書面文字。
    • ? 應用:文字錄入、人機通訊、語音翻譯等等。
    • ? 困難:大量存在的同音詞、近音詞、集外詞、口音等等。
  • 文語轉換/ 語音合成 (text-to-speech synthesis)

    • 將書面文本自動轉換成對應的語音表征。
    • ? 應用:朗讀系統、人機語音接口等等。
  • ? 說話人識別/認同/驗證 (speaker recognition/ identification/ verification)

    • 對一言語樣品做聲學分析,依此推斷(確定或驗證)說話人的身份。
    • ? 應用:信息安全、防偽等等
  • 一般將語音識別、語音合成和說話人識別等以語音信號為主要研究對象的語音技術獨立出來,

  • 而其他以文本(詞匯/句子/篇章等)為主要處理對象的研究內容作為自然語言處理的主體

基本問題

  • 形態學 (Morphology) 問題
    • 研究詞(word) 由有意義的基本單位-詞素(morphemes)的構成問題。
    • 單詞的識別/ 漢語的分詞問題。
    • 詞素:詞根、前綴、后綴、詞尾
  • 句法 (Syntax) 問題
    • 研究句子結構成分之間的相互關系和組成句子序列的規則
  • 語義 (Semantics) 問題
    • 研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義;
  • 語用學(Pragmatics) 問題
    • 研究在不同上下文中語句的應用,以及上下文對語句理解所產生的影響。
    • 從狹隘的語言學觀點看,語用學處理的是語言結構中有形式體現的那些語境
    • 相反,語用學最寬泛的定義是研究語義學未能涵蓋的那些意義。
  • 語音學(Phonetics) 問題
    • 研究語音特性、語音描述、分類及轉寫方法等

主要困難

  • 大量歧義(ambiguity)現象

    • ? 詞法歧義
      • 自動化/研究所/取得/的/成就
      • 自動化/研究/所/取得/的/成就
    • 詞性歧義
    • 結構歧義
      • 喜歡鄉下的孩子。
      • 關于魯迅的文章。
    • 語義歧義
      • 一詞多義
      • 比喻
      • eg
        • 他說:“她這個人真有意思(funny)”。她說:“他這個人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她
          意思意思(express)。他火了:“我根本沒有那個意思(thought)”!她也生氣了:“你們這么說是什么意思(intention)”?事后有人說:“真有意思(funny)”。也有人說:“真沒意思(nonsense)”。
        • 要把權力裝進制度的籠子;老虎蒼蠅一起打。破四舊,除四害;消滅一切牛鬼蛇神。
    • 語音歧義:大量同音現象
    • 多音字及韻律等歧義(語音合成的困難)
      • 一字多音
      • 韻律、聲調、語氣、重音
    • 大量未知語言現象
      • 新詞、人名、地名、術語等
      • 新含義(蘋果)
      • 新用法和新句型等,

  • 歸結其挑戰有:

    • 普遍存在的不確定性:詞法、句法、語義、語用和語音各個層面
    • 未知語言現象的不可預測性:新的詞匯、新的術語、新的語義和語法無處不在
    • 始終面臨的數據不充分性:有限的語言集合永遠無法涵蓋開放的語言現象
    • 語言知識表達的復雜性:語義知識的模糊性和錯綜復雜的關聯性難以用常規方法有效地描述,為語義計算帶來了極大的困難
  • 機器翻譯中映射單元的不對等性:詞法表達不相同、句法結構不一致、語義概念不對等

基本研究方法

  • 理性主義:通常通過一些特殊的語句或語言現象的研究來得到對人的語言能力的認識,而這些語句和語言現象在實際的應用中并不常見
    • 問題求解的基本思路:基于規則的分析方法建立符號處理系統
    • 規則庫開發:N + N --> NP
    • 詞典標注: #工作,N(uc);V;
    • 推導算法設計:歸約、推導、歧義消解方法
    • 知識庫 + 推理系統 -->NLP 系統
    • 理論基礎:Chomsky 的文法理論
  • 經驗主義:偏重于對大規模語言數據中人們所實際使用的普通語句的統計。
    • 求解問題的思路:基于大規模真實語料(語言數據)建立計算方法
    • 大規模真實數據的收集、標注:真實性、代表性、標注信息 ……
    • 統計模型建立:模型的復雜性、有效性、參數訓練方法 ……
    • 理論基礎:統計學、信息論、機器學習
    • 語料庫 + 統計模型 --> NLP 系統

兩種方法的實例

  • 例子
    • 以機器翻譯為例
    • 給定英語句子:
    • There is a book on the desk.
    • 將其翻譯成漢語

基于規則的方法

  • 基于規則的方法
    • 對英語句子進行詞法分析
      • There/Ad is/Vbe a/Det book/N on/P the/Det desk/N ./Puc
    • 對英語句子進行句法結構分析
      • 利用轉換規則將英語句子結構轉換成漢語句子結構
  • 根據轉換后的句子結構,利用詞典和生成規則生成翻譯的結果句子

數據驅動的方法(SMT和NMT

基于統計的方法

  • 貝葉斯判別
  • ?三個關鍵問題:
    • ?估計語言模型概率 p?;
    • ?估計翻譯模型概率 p(E|C);
    • ?快速有效地搜索候選譯文C,使p?×p(E|C)最大。
  • 主要任務
    • 收集大規模雙語句子對、目標語言句子
    • ?參數訓練與模型優化

研究現狀

  • 基本現狀
  • ? 部分問題得到了解決,可以為人們提供輔助性幫助,如:專業領域文檔翻譯,電子詞典,搜索引擎,文字錄入等;
  • ? 基礎問題研究仍任重而道遠,如:語義表示和計算、高質量的自動翻譯等;
  • ? 社會需求日益迫切:信息服務、通訊、網絡內容管理、情報處理、國家安全等;
  • ? 許多技術離真正實用的目標還有相當的距離,尚未建立起有效、完善的理論體系

總結

以上是生活随笔為你收集整理的nlp1-介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。