自然语言处理领域基本概念笔记
自然語言處理
詞向量:
自然語言處理問題要轉(zhuǎn)化為機器學(xué)習(xí)的問題,首先就要把單詞數(shù)學(xué)化表示,就是用n維實數(shù)向量來代表一個單詞。
對話系統(tǒng)
對話系統(tǒng)發(fā)展歷程的三個階段:
1.基于符號規(guī)則和模板的對話系統(tǒng)
2.基于統(tǒng)計機器學(xué)習(xí)的對話系統(tǒng)
3.基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)的對話系統(tǒng)
對話系統(tǒng)根據(jù)不同的應(yīng)用場景可以分為兩種類型:
1.任務(wù)型對話系統(tǒng)
面向垂直領(lǐng)域,目的是幫助用戶完成預(yù)定任務(wù)或動作,
應(yīng)用場景:虛擬個人助理,預(yù)定機票、酒店和餐館等,或者是淘寶客服。
是一個多步?jīng)Q策求取reward最大化的問題了,也就是一個RL問題。完全使用有監(jiān)督學(xué)習(xí)的話建模起來有缺陷。
2.非任務(wù)型對話系統(tǒng),也稱聊天機器人
面向開放領(lǐng)域,目的是用來閑聊,
應(yīng)用場景:娛樂、情感陪護、營銷溝通,例如微軟小冰
對于閑聊型的對話系統(tǒng),主流方法有三類:
-
1.基于檢索的方法。(工業(yè)界偏愛這種)
可以用來解決閑聊型對話或FAQ問答型對話問題(常見問題解答)。
-
2.基于生成的方法。(生成式存在的難點很多,比如在評估和控制生成上。)
-
3.將兩者結(jié)合起來的方法。
問答型對話
除了閑聊和完成特定任務(wù),還有一大類知識獲取(即問答)的需求。
分為基于知識圖譜的對話(KB-Dialogue)和檢索式多輪問答等更細(xì)化的方向。
任務(wù)型對話系統(tǒng)的方法:
1.管道方法:
管道方法一般分別建立NLU、DM和NLG等模塊,這些子模塊通常還要分解為更小的子任務(wù)分別建模,然后按照順序?qū)⑦@些模塊連接起來。
2.端到端方法:
將管道方法中的三個模塊(NLU,DM,NLG)或部分用統(tǒng)一的端到端方法代替,根據(jù)用戶的輸入,直接生成相應(yīng)的回復(fù)或響應(yīng)模塊的輸出。
任務(wù)型對話系統(tǒng)主要流程(如下圖)涉及5部分:
1.自動語音識別
2.自然語言理解
3.對話管理(包括對話狀態(tài)跟蹤和對話策略)
4.自然語言生成
5.語音合成
自動語音識別:
將用戶語音中的連續(xù)時間信號轉(zhuǎn)變?yōu)殡x散的音節(jié)單元或單詞。
在口語對話系統(tǒng)中,用戶存在大量的口語現(xiàn)象,通常還伴隨著環(huán)境噪聲,這些為識別算法的特征提取、模型訓(xùn)練等環(huán)節(jié)增加了更多難度。
自然語言理解:
利用語義和語法分析將語音識別的結(jié)果轉(zhuǎn)化為計算機能夠理解的結(jié)果化表現(xiàn)形式。
目的是將用戶的輸入映射到預(yù)先根據(jù)不同場景定義的語義槽中。(如下圖)
通常包括三個任務(wù):領(lǐng)域檢測、意圖識別和語義槽填充。
領(lǐng)域檢測和意圖識別屬于文本分類任務(wù),根據(jù)當(dāng)前用戶的輸入推斷出用戶的意圖和涉及的領(lǐng)域。
語義槽填充本質(zhì)上屬于序列標(biāo)注問題,目的是識別句子中的語義槽和其對應(yīng)的值。
對話管理(包括對話狀態(tài)跟蹤和對話策略)
1.對話狀態(tài)跟蹤:
通過語言理解生成的結(jié)構(gòu)化數(shù)據(jù)理解或者捕捉用戶的意圖或目標(biāo)。
在以任務(wù)為導(dǎo)向的對話系統(tǒng)中,對話狀態(tài)跟蹤(DST)是一個核心組件,負(fù)責(zé)在整個對話過程中跟蹤用戶的目標(biāo)。
2. 對話策略:
利用對話狀態(tài)跟蹤得到的用戶目標(biāo)來決定下一步要采取的行動。也就是根據(jù)對話狀態(tài)跟蹤估計的對話狀態(tài),通過預(yù)設(shè)的候選動作集,選擇系統(tǒng)動作或策略。
自然語言生成:
組織適當(dāng)?shù)膽?yīng)答語句,將系統(tǒng)的答復(fù)轉(zhuǎn)換成用戶能夠理解的自然語言。也就是將對話管理模塊輸出的抽象表達(dá)轉(zhuǎn)換為句法合法、語義準(zhǔn)確的自然語言句子。
語音合成:
將系統(tǒng)答復(fù)的自然語言文本合成應(yīng)答語音反饋給用戶。
語義槽:
從預(yù)先定義一個關(guān)鍵字的集合,用來在用戶說法中引用,以增強說法的擴展能力。
比如“我要去上海”,語義槽就是地址 ,取值為上海。經(jīng)常與詞庫一起使用,一個語義槽只能綁定一個詞庫,而一個詞庫可以同時對應(yīng)多個語義槽。
詞性標(biāo)注:
在給定句子中判定每個詞的語法范疇,確定其詞性并加以標(biāo)注的過程。
比如給定一個句子:“這兒是個非常漂亮的公園”,
對其的標(biāo)注結(jié)果應(yīng)如下:“這兒/代詞 是/動詞 個/量詞 非常/副詞 漂亮/形容詞 的/結(jié)構(gòu)助詞 公園/名詞”。
命名實體識別:
目的是識別語料中人名、地名、組織機構(gòu)名等命名實體。
1.單輪對話:
以查詢的話語q為前提,得到語句r作為回復(fù)。
2.多輪對話:
在歷史對話信息c的背景下,以q為前提,得到語句r作為回復(fù)。
開放領(lǐng)域?qū)υ捪到y(tǒng):
基于深度學(xué)習(xí)的開放領(lǐng)域?qū)υ捪到y(tǒng)的構(gòu)建方法有:檢索式、生成式和檢索與生成相結(jié)合的方法。
Goal Oriented 和Task Oriented的異同:
在沒有特別說明的情況下,在人機對話系統(tǒng)研究工作中有著相同的含義,它們只是對同一工作的不同描述。
口語對話系統(tǒng):
默認(rèn)指的是面向任務(wù)的對話系統(tǒng)(多輪對話),是能夠用聲音與人進行交談的計算機系統(tǒng)。
總結(jié)
以上是生活随笔為你收集整理的自然语言处理领域基本概念笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ddos怎么搞(ddos这么打开)
- 下一篇: 人工智能领域论文常见基本概念笔记