日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自动语音识别(ASR)自监督方法研究综述

發布時間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自动语音识别(ASR)自监督方法研究综述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者?|?蔡杰

單位?|?北京大學碩士生

研究方向?|QA

語音 AI 作為人工智能的應用技術之一,近年來正逐漸從實驗室研究,越來越多地走向實際應用和價值創造的新階段。其中的 ASR(Automatic Speech Recognition)是一種將人的語音轉換為文本的技術, 該技術可以使工具變得更加智能化,可以應用于各類智能設備,比如語音搜索,語音助手,智能音箱等等。

最近研究了 ASR 領域各種使用自監督方法訓練的模型,并在此做一些簡單的總結。

基本概念

ASR 方法主要分為兩類,一類是傳統的方法,先使用聲學模型將語音轉換為拼音或者是其他的中間形式,然后使用語言模型達成再將中間形式轉換為文本,從而達到語音轉文本的目的。另一類是直接采用端到端的形式把語音轉換為文本。

本文的介紹主要聚焦于端到端的形式。自從預訓練模型的誕生,ASR 領域也借鑒了預訓練的思想。目前 ASR 中的預訓練方法普遍采用預訓練特征提取器(訓練encoder)的方式,通過海量的無標注音頻進行學習,取得了非常顯著的效果。

本文一共介紹 3 篇 ASR 領域中使用自監督方法的論文,第一篇論文是 CPC(Contrastive Predictive Coding)該論文首次提出了 InfoNCE loss(沒想到竟然出自 ASR 領域),奠定了對比學習領域的基礎。第二篇論文則是 Facebook 經典的 wav2vec 模型,之后 Fackbook 的一系列 ASR 模型的基礎。第三篇則是提出了將 ASR 與 NLP 進行了跨界融合的新思路,得益于 BERT 的加持也取得了很好的效果。

CPC

論文標題:

Representation Learning with Contrastive Predictive Coding

論文地址:

https://arxiv.org/pdf/1807.03748.pdf

論文來源:

arxiv

本文直接使用音頻數據作為模型的輸入,通過對比學習的方法優化模型,從而得到音頻的特征向量。

首先開門見山的看看 CPC 模型的模型圖:

模型使用原始的音頻數據作為輸入,經過一個 CNN 的 encoder 之后,得到對應的特征表示,然后將得到的特征表示輸入到一個 RNN 中,得到圖中的 ,因為語音具有短時平穩性,其在較短周期內是具有一定規律的。

CPC期望通過訓練模型,使 時刻得到的預測值 經過 linear 層映射后,跟 encoder 得到的潛在特征 z(t+1)、z(t+2)、z(t+3)、z(t+4) 盡量的接近。即, 通過一些變換后,可以很好的用來重構未來的特征 z(t+k)。

本論文還提出了一個基于 NCE 的損失函數,也就是大名鼎鼎的 InfoNCE:

其中 X={x_1,…,x_N} 為包含一個從分布 p(x|c) 采樣得到的正樣本以及 N-1 個從分布 p(x) 中采樣得到的負樣本。為何要從分布 p(x|c) 中采樣得到正樣本呢,猜測是因為分布 p(x|c) 中包含了該時刻的上下文信息,而音頻具有較短周期內相似的特性,因此采樣出來的樣本和該時刻的樣本比較相似。CPC 最終要學到是圖中橙紅色的向量,這個向量可以用到下游的 ASR 系統中。

CPC 是一種完全無監督的訓練特征提取的方法,它的可移植性很強,能適用于多種任務,效果上在很多任務中能夠媲美甚至超越當時的有監督方法。

作者在兩個ASR任務——電話和說話者分類任務中取得了顯著的成果,尤其是在說話者分類任務中取得了和有監督方法接近的結果。

wav2vec

論文標題:

wav2vec: Unsupervised Pre-training for Speech Recognition

論文地址:

https://arxiv.org/abs/1904.05862

論文來源:

INTERSPEECH 2019

wav2vec 首次嘗試使用卷積神經網絡用于 ASR 領域中的無監督預訓練。wav2vec 的訓練方法和 CPC 模型類似,都是參照以上方法去預訓練的。其具體的模型圖如下所示:

圖中的兩個藍色三角形部分表示的都是兩個不同的卷積神經網絡,第一個淺藍色的卷積神經網絡稱之為 encoder network。通過 encoder network(一個五層的卷積神經網絡)可以將輸入以較低的時間頻率將原始語音樣本 x 編碼為特征表示 z;第二個深藍色的卷積神經網絡稱之為 context network。接下來 context network會將 encoder network 的多個輸出(多個表示 ,v 的大小為超參數,文中嘗試了兩種不同 v 的大小:210ms 和 810ms)混合到單個 context 向量 c 中。

之后是對應的 loss 函數,wav2vec 使用了和 CPC 類似的思路。因為語音具有短時平穩性,其在較短周期內是具有一定規律的。所以可以通過當前輸出的特征預測未來時刻的特征,因為二者是很相似的。作者把當前時刻和未來的表征當做正例,同時從一個概率分布 pn 中采樣出負樣本,loss 使用的也是 contrastive loss:

從公式中可以看出,前半部分是正例的 loss,后半部分是負例的 loss,并且在兩邊都同時加了一個 sigmoid 函數,最后要使得正例盡可能接近,負例盡可能遠離。

在實驗部分,作者把學到的特征應用于 ASR 任務(WSJ benchmark),將傳統 ASR 任務中的 filterbank 特征替換為 c,最后實驗結果如下:

可以看出利用 wav2vec 訓練的模型比起 baseline 模型有明顯的提升。

此外作者還發現如果在訓練的時候使用更少的帶標簽數據,模型相較于 baseline 會帶來更多的提升,同時模型的表現還會受到數據量大小的影響(數據量越大,效果越好):

vq-wav2vec

論文標題:

vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations

論文地址:

https://openreview.net/forum?id=rylwJxrYDS

論文來源:

ICLR 2019

轉眼來到了 2019 年,BERT 也誕生了。那么 BERT 這么好的效果能不能也用到 ASR 領域呢?vq-wav2vec 就做了一次有趣的嘗試。我們都知道 BERT 預訓練是為了得到每個詞豐富的向量表示,以致于在下游任務使用的時候只需要簡單的微調即可。vq-wav2vec 也借鑒了這一思想。其模型圖如下:

從左圖中可以看出,vq-wav2vec 模型整體上采用的結構與 CPC 和 wav2vec 相似,創新點在于提供了一種獲取全新的語音表征的方法。從圖中可以看出將原始語音樣本 x 編碼為特征表示 z,以及將 encoder network 的多個輸出 z 混合到單個 context 向量 c 中的操作和 wav2vec 一致。不同的地方在于將特征表示 z 轉換為 q 的過程,該過程是通過一個量化操作實現的。

右圖是整體語音識別任務的 pipeline 方法,通過左圖得到的離散表征可以類似 NLP 任務一樣輸入到 BERT 中,對 BERT 進行預訓練,最后應用到下游任務中。

為什么要進行量化操作呢?我們都知道在 NLP 領域中,通常以字為單位,而每個字都有屬于自己的獨立表示。但是在語音領域,并沒有像字這樣的劃分單位。因此為了能夠在語音領域也能使用到 NLP 領域的成果,作者引入了將連續表示離散化的量化操作。

具體來看,本文中的量化操作共有兩種:Gumble Softmax 和 K-means。因為二者都是可微的,從而可以讓模型的 loss 在訓練的時候不中斷。

上圖中左右兩個部分中的 e1 ... ev,就是所謂的碼本(可以理解為 BERT 中的詞表)。碼本中每個元素對應的向量是隨機初始化的,在訓練過程中不斷變化。

最后該方法的實驗結果如下所示, 這個算法在各種任務上的表現在當時基本都達到了 SOTA。:

本文主要的創新點在于將語音和 BERT 很好的結合到了一起,同時利用了 BERT 強大的信息捕捉能力達到了 SOTA。

總結

本文介紹了三篇論文,從最經典的 CPC到能夠將語音和 NLP 結合的 vq-wav2vec,第一篇文章比較適合新手去了解該領域,隨著了解的加深,可以在經典的模型基礎上嘗試不同的方法,可能會帶來不同的效果。最后一篇則是介紹跨領域結合的思路,相信還有很多特定領域的方法可以嘗試與 ASR 進行跨界融合。

語音預訓練和 NLP 中的預訓練最大的區別在于 NLP 中的預訓練的輸入可以是離散的 token,而語音預訓練的輸入則是連續的音頻。但是可以看出 ASR 領域的輸入形式和 NLP 類似,初期通常借助 CNN 將連續的變量離散化(CPC、wav2vec),逐漸演變成使用更加顯示的離散化方法(vq-wav2vec)。此外,ASR 通常使用 seq2seq 的模型結構,在生成的時候為了提高生成的數據質量,通常還會加入語言模型作為糾錯模塊等。

總之感覺語音方向還有很多坑可以繼續去填,也希望可以看到更多有意思的工作。

·

·

總結

以上是生活随笔為你收集整理的自动语音识别(ASR)自监督方法研究综述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 在线免费观看污视频 | 91免费影片 | 一级做a爱片久久毛片 | 顶弄h校园1v1 | 久草热在线 | 无码少妇一区二区 | 成人三区 | 日韩欧美大片在线观看 | 亚洲人成电影在线 | 富二代成人短视频 | 一区在线视频 | 人善交videos欧美3d动漫 | 免费成人深夜夜视频 | 久草综合在线观看 | 亚洲色图欧美在线 | 性――交――性――乱 | 天堂av观看 | 欧美性视频一区二区三区 | 99涩涩| 欧美日韩欧美日韩在线观看视频 | 欧美黄色片免费看 | 欧美群妇大交群 | av网站入口 | 欧美激精品 | 麻豆久久久久久 | 欧美三级视频 | 亚洲一区二区三区久久久 | 欧美裸体女人 | 97人妻精品一区二区三区视频 | 成 人片 黄 色 大 片 | 天天综合中文字幕 | 亚洲午夜久久久久久久久 | 一个人看的www日本高清视频 | 国产精品51 | 国内毛片毛片毛片毛片 | 国产真实乱人偷精品视频 | 五月六月婷婷 | 日本视频不卡 | 亚洲精品一区二区三区蜜臀 | 天天躁日日躁狠狠躁喷水 | 九九自拍| 99香蕉视频 | 韩国伦理电影免费在线 | 国产色无码精品视频国产 | 欧美一区二区三区久久 | 韩国三级中文字幕 | 严厉高冷老师动漫播放 | 1级av| 大陆极品少妇内射aaaaaa | www.国产在线视频 | 天天色天天爽 | 黑人性生活视频 | 色无极影院亚洲 | 蜜桃传媒一区二区亚洲 | 日韩一级黄 | 国产天堂网 | 伊人网影院 | 国产精品久久一区二区三区动 | 一区二区三区影院 | 国产成人自拍偷拍 | 国产精品99一区二区三区 | 波多野结衣乳巨码无在线观看 | 欧美三级国产 | 伊人365影院| 国产一伦一伦一伦 | 夜色视频在线观看 | 在线国产日韩 | 欧美1314 | 在线视频 中文字幕 | 自拍超碰 | 国产小视频在线观看免费 | 成人乱码一区二区三区av | 欧美爱爱网站 | 成人免费看片视频 | 日本泡妞xxxx免费视频软件 | 在线激情网 | 久草资源网站 | 青青青在线视频 | 有奶水的迷人少妇 | 最新日韩三级 | 国产高潮又爽又无遮挡又免费 | 瑟瑟在线观看 | 逼逼爱插插网站 | 黄色aa视频 | 男人天堂综合网 | 日本理论片中文字幕 | 99国产精品久久久久久久成人热 | 性色视频在线观看 | 调教91| 亚洲自拍另类 | 国产精品国产三级国产普通话对白 | 超碰超碰在线 | 欧美黄色一级片视频 | 亚洲三级在线看 | 性视频播放免费视频 | 性久久久 | 久久av秘一区二区三区 | 日韩免费在线播放 | 欧美视频免费看 |