當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

李宏毅NLP笔记

發(fā)布時間：2023/12/8 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了李宏毅NLP笔记小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

核心任務(wù)（6種技術(shù)）

應(yīng)用分別有這些應(yīng)用speech recognition（語音辨識）、Text-to-Speech Synthesis語音合成、speech separation（將一段多個speaker同時發(fā)出的聲音信號分離），voices conversion（類似變聲器）、Speaker Recognition（判斷聲音信號的speaker），Keyword Spotting（關(guān)鍵字辨識）、、text generation、機(jī)器翻譯，syntactic parsing（文法剖析）

其他技術(shù)

Meta Learning：讓機(jī)器學(xué)習(xí)學(xué)習(xí)的算法。先讓模型在很多任務(wù)上進(jìn)行學(xué)習(xí)，學(xué)習(xí)目標(biāo)是找到學(xué)習(xí)方法，使得在新的任務(wù)上進(jìn)行簡單的訓(xùn)練（更少的訓(xùn)練資料，更短的訓(xùn)練時間）就可以有很好的效果
Learning from Unpaired Data
將圖像中的風(fēng)格遷移應(yīng)用到語音和文字中。將一種語音/文字視為一種風(fēng)格，學(xué)習(xí)輸入風(fēng)格和輸出風(fēng)格之間的映射關(guān)系
Knowledge Graph
通過讓機(jī)器閱讀大量訓(xùn)練資料學(xué)習(xí)knowledge，讓后再講學(xué)到的knowledge應(yīng)用到其他任務(wù)模型中
Adversarial Attack
（1）語音
判斷一段語音信號是不是經(jīng)過合成或變聲；
在語音中加入噪聲迷惑機(jī)器
（2）文字
Explainable AI

二、語音辨識

任務(wù)：語音信號->文本

輸出單位（token）的類別：

Phoneme：聲音信號的基本單位，有點(diǎn)類似音標(biāo)。但是需要詞典（Lexcion音標(biāo)與詞匯的映射）輔助
Grapheme：字母，文本的最小單位。優(yōu)點(diǎn)在于不需要Lexcion。對于英文來講，Grapheme的容量是26個英文字母+空格+標(biāo)點(diǎn)符號；對于中文，Grapheme是漢字集合，常用字大約在4000+。
Word：詞匯。對于一些語言來講，詞匯的數(shù)量過大
Morpheme：詞素。傳達(dá)含義的最小單位。（獲取可以通過老專家或統(tǒng)計）
Bytes：字節(jié)。優(yōu)勢在于不依賴于語言，所有語言都可以表示成bytes，數(shù)量是256

總結(jié)

Grapheme簡單易上手，不需要老專家，容易獲得；Phoneme跟語音的關(guān)系更明確，在語音方面更簡單，但是需要更強(qiáng)大的模型將其映射到文字；
語音辨識與其他應(yīng)用的結(jié)合

輸入：聲音信號（長度為T，緯度為d）

通過一個長度為25ms的滑動窗口提取特征，將聲音信號轉(zhuǎn)化成d緯的特征向量（frame），使用不同的策略得到的緯度不同（上圖展示了三種策略）。每個窗口之間的間隔是10ms（窗口之間有重疊）意味著1s的聲音信號將轉(zhuǎn)化成100個特征向量（100*d）
語音信號的特征提取過程

Waveform:25ms的聲音信號。聽起來相同的聲音，他們的聲音信號可能非常不同
DFT:離散傅里葉變換
spectrogram:頻譜圖。和聲音信號的關(guān)聯(lián)性非常明確，可以通過頻譜圖猜到聲音內(nèi)容
filter bank:濾波器組（專家設(shè)計）
DCT:離散余弦變換

filter bank output成為主流
訓(xùn)練數(shù)據(jù)量

對比圖像

模型使用趨勢

八、bert

總結(jié)

以上是生活随笔為你收集整理的李宏毅NLP笔记的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：考研英语单词-近义词分类-Fifth D
下一篇：有极性电容和无极性电容区别

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔