日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Chapter1-1_Speech_Recognition(Overview)

發布時間:2024/7/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Chapter1-1_Speech_Recognition(Overview) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 1 古人看語音辨識
    • 2 什么是語音辨識
      • 2.1 輸出部分 - Token
      • 2.2 輸入部分 - 聲音信號特征
    • 3 數據集
    • 4 模型

本文為李弘毅老師【Speech Recognition - Overview】的課程筆記,課程視頻youtube地址,點這里👈(需翻墻)。

下文中用到的圖片均來自于李宏毅老師的PPT,若有侵權,必定刪除。

文章索引:

下篇 - 1-2 LAS

總目錄

1 古人看語音辨識

50年前的人們是如何看待語音辨識的?有一位比較有權威的人物認為語音辨識就像是把水變成汽油,從海底撈金,治愈癌癥或者登上月球。該觀點也讓那個時代的許多人放棄了進行語音辨識方向的相關研究。

而如今,已經無需置疑語音辨識的可行性,幾乎每一只手機里都有著語音辨識。

2 什么是語音辨識

簡而言之,語音辨識就是輸入一段聲音信號,經過模型處理后,輸出對應的文字信息。

其中的輸入的聲音信號是由TTT個長度為ddd的vector組成,而輸出的文本則是NNN個token,token的種類會被限制,種類的數量為vvv,可以理解為一個大小為vvv的詞庫。通常來說,TTT要遠大于NNN

2.1 輸出部分 - Token

目前被使用的token可以歸為五類:

  • Phoneme: 發音的基本單元
  • Grapheme: 書寫的基本單元
  • Word: 詞
  • Morpheme: 語義的基本單元
  • Byte: 字節😲

Phoneme可以看成是音標,比如英文可以轉化成如下的樣子。在深度學習還不怎么流行的時候,Phoneme是一個不錯的選擇,因為它和聲音的關系十分直接,但它有一個缺點就是在模型得到Phoneme之后,還需要將其再轉換成word,這需要額外的語言學知識。

Grapheme是書寫的基本單元,比如在英文當中就是字母。當然,對于模型來說,只有字母是不夠的,還需要有空白符,甚至需要一些標點符號。在中文當中,Grapheme就是方塊字,中文和英文不同的在于,中文不需要空白符。Grapheme有一個好處就是,它不需要額外的語言學知識,模型的輸出即是最終的結果。不過,Grapheme對模型來說也是一個挑戰,因為它和聲音信號之間沒有直接的關系。

Word就是詞匯,對于英文來說,用空格分隔的就是一個Word,但對中文來說就不太好分了。用Word來做是一個不推薦的選擇,因為對于語言來說Word實在是太多了!

Morpheme是可以傳達語義的最小單位,它比Word要小,比Grapheme要大。如下圖就是幾個例子,但Morpheme的定義也比較模糊,局限性很大。

還有一種很狂的方法,就是直接用Byte!比如所有的語言都用UTF-8來表示,這樣就不需要考慮是什么語言了。個人認為這是一種特殊的Grapheme。

李宏毅老師的助教們收集了2019年INTERSPEECH’19, ICASSP’19, ASRU’19中超過100篇論文中使用token的比例,如下圖所示,感謝助教們!👍

2.2 輸入部分 - 聲音信號特征

通常利用滑窗法將聲音信號變為一個T×dT \times dT×d的向量。如下圖所示,我們使用長度為25ms的窗口,在一個16KHz的的聲音信號上進行滑動,每次滑動的間隔為10ms,得到的截片被稱為是frame,那么一個1s的聲音信號就可以被分為100個frames(T=100T=100T=100)。每個frame中有400個采樣點,可以直接使用這400個點的數值作為這個frame的特征(d=400d=400d=400),但不推薦這樣做。目前都會采用MFCC(d=39d=39d=39)或者filter bank output(d=80d=80d=80)的方法將這個原始信號進行轉換。

聲音信號在進行特征抽取時,需要進行多個變換,每一個步驟得到的結果都可以直接被用于模型的輸入。離散傅里葉變換將原始聲音信號轉換成頻譜圖,據李老師說,可以用人眼從頻譜圖中看出來這個信號是什么🙈!得到頻譜圖后,對其進行采樣,經過多個設計過的filter,得到了filter bank output的特征結果,一般會取一個log。log的結果再進行離線余弦變換后可以得到MFCC的特征結果。

同樣地,辛勤的助教們也在2019年INTERSPEECH’19, ICASSP’19, ASRU’19中統計了使用的輸入信號特征的結果。再次感謝助教們!👍

3 數據集

語音辨識的一些公開數據集如下圖所示,用于商業的模型使用的數據集是遠大于下面的數據集的。

4 模型

本課程會介紹的語音辨識模型有如下幾種:

  • Listen, Attend, and Spell (LAS) (2015)
  • Connectionist Temporal Classification (CTC) (2006)
  • RNN Transducer (RNN-T) (2012)
  • Neural Transducer (2016)
  • Monotonic Chunkwise Attention (MoChA) (2018)

而目2019年的論文中,各個模型的使用情況如下如所示:

總結

以上是生活随笔為你收集整理的Chapter1-1_Speech_Recognition(Overview)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产视频自拍一区 | 啪啪网站免费观看 | 在线观看99 | 天天搞天天干 | 大乳丰满人妻中文字幕日本 | 免费处女在线破视频 | 91在线欧美 | 午夜影院在线看 | av天天堂 | 狠狠爱五月婷婷 | 欧美性大交| 制服下的诱惑暮生 | 久久国产综合 | 极品美妇后花庭翘臀娇吟小说 | 日本黄色免费网址 | 欧美一a一片一级一片 | 最新91视频 | 激情综合图区 | 另类图片亚洲色图 | av看片资源| 精品不卡一区二区三区 | 一本色道久久88亚洲精品综合 | 亚洲欧美在线看 | 日韩不卡在线观看 | 丁香六月激情综合 | 人妻少妇精品中文字幕av蜜桃 | 久久久久中文 | 欧洲金发美女大战黑人 | 亚州欧美在线 | 久草福利网 | 欧美一级淫片免费视频魅影视频 | www.haoav| 国产成人精品二区三区亚瑟 | 欧美激情欧美激情在线五月 | 免费在线观看你懂的 | 中文字幕欧美另类精品亚洲 | 毛片大全在线观看 | 国产一区二区三区在线观看视频 | 午夜电影一区二区三区 | 日韩精品久久久久久久酒店 | 蜜桃导航-精品导航 | 久热国产视频 | 中日韩精品在线 | 欧美色999| 午夜日韩福利 | 91亚洲精| 一区二区三区精品在线 | 国产美女精品人人做人人爽 | bbbbbxxxxx性欧美 | 日本不卡免费在线 | 丝袜老师办公室里做好紧好爽 | 国产中文 | 日韩欧美专区 | 午夜影院试看 | 射一射| 午夜777| 免费无遮挡无码永久在线观看视频 | 六月激情网 | 特一级黄色片 | 成人污视频| 人妻无码中文久久久久专区 | 色婷婷香蕉在线一区二区 | 精品无码久久久久久国产 | 欧美三级黄色大片 | 黄色av电影在线观看 | 五月天导航 | 欧美.www| 中文在线а√天堂 | 欧美成人免费网站 | 久久99精品久久久久久水蜜桃 | xxx日韩 | 国内精品第一页 | av一本在线 | 岛国片在线播放 | 18男女无套免费视频 | 骚虎视频最新网址 | 黑人av | 又黄又色| 欧美日韩在线观看成人 | 国产女主播视频 | 天堂av中文字幕 | 色图综合 | 另类中文字幕 | 污片网站在线观看 | 男人看的网站 | 女同互舔视频 | 久久久久久久久久久久 | 亚洲一级Av无码毛片久久精品 | 午夜国产一级 | 中文字幕一级片 | 亚欧洲精品在线视频 | 亚洲国产精品视频一区二区 | 91精品国产91| 国产精品91一区二区 | 黄色片www| 国色综合 | 日韩黄色一级 | 久久免费少妇高潮久久精品99 | 国产福利视频在线 |