语音识别中输入输出的可能形式有哪些
序,語音信號(hào)的前處理
- 1,語音數(shù)據(jù)如何轉(zhuǎn)化為features?
拿到10ms的語音數(shù)據(jù)后,常會(huì)利用一定大小的window將語音數(shù)據(jù) 切分成 若干份(在語音識(shí)別中,由window生成的一份語音片段被稱為frame),每份語音片段在 通過 特定的數(shù)據(jù)轉(zhuǎn)換方式(如:MFCC) 轉(zhuǎn)成 feature,最后 在所有這些轉(zhuǎn)化后的features拼接起來 作為 最終輸入model 的 input。
需要注意的是,window在移動(dòng)時(shí),其移動(dòng)步長(zhǎng)常小于 length of window,因此,有window切分的語音片段,其信息大量冗余,這也在一定程度上 加快了數(shù)據(jù)的處理速度。
- 2,語音數(shù)據(jù)的標(biāo)注方法
給定一個(gè)語音片段,直接將其內(nèi)容轉(zhuǎn)為文本信息,據(jù)此,獲得一個(gè) train sample。
一,語音識(shí)別模型的 輸入 類型
1,直接將語音信號(hào)轉(zhuǎn)為數(shù)值 作為 model 的 feature 輸入模型
2,在 deeplearning 流行以前,常將 MFCC 作為 model 的 feature 輸入模型,其dimension為39
3,deeplearning 得到極大發(fā)展以后,常將 filter bank output 作為 model 的 feature 輸入模型,其dimension為80
由原始語音信號(hào) 到 filter bank 到 最復(fù)雜的feature MFCC 的轉(zhuǎn)化 過程如下:
二,語音識(shí)別模型的輸出 類型
- 1,Phoneme:a unit of sound , 比 英文英標(biāo)還要小的單位
使用Phoneme作為output,需要額外建立一個(gè) 詞典,將 word 和 phoneme 對(duì)應(yīng)起來,從而能根據(jù) 輸出的 Phonemes 得到 對(duì)應(yīng)的 word。
值得一提的是,phoneme 需要語言學(xué)的知識(shí),phoneme詞典 并沒有統(tǒng)一的規(guī)定,因此,不同的學(xué)者 產(chǎn)生的 詞典 不一,在使用過程中難以統(tǒng)一。
- 2,Grapheme:smallest unit of a writing system
以英文為例,其組成單元為:26個(gè)英文字母,空格,標(biāo)點(diǎn)符號(hào)。以中文為例,其組成單元為 方塊字。
Grapheme存在的一個(gè)問題是:同音不同字,以英文為例,發(fā)音為/k/的字母 可能為 c 也可能 為 k,需要model 有很強(qiáng)的辨識(shí)能力才能準(zhǔn)確辯時(shí)出來。
其優(yōu)點(diǎn)在于,grapheme無需創(chuàng)建詞典,只需將output串起來 即可得到 詞。
- 3,word
對(duì)于英文來講,由于不同的詞之間會(huì)以空格分開,因此,分詞很easy,但是,在外文中,word是可以被創(chuàng)造的,這也意味著 vocabulary 可能需要無限延長(zhǎng)。
對(duì)于中文來講,詞之間沒有明顯的分割標(biāo)志,outputs 還需 近一些 分詞工具 才能得到 分詞結(jié)果。
- 4,Morpheme:the smallest meaningful unit,在英文里,grapheme < morpheme <word。
舉例說明:
unbreakable 可以由3個(gè)morpheme組成:un , break, able
rekillable 可以由3個(gè)morpheme組成:re, kill, able
Morpheme可以通過2種方式獲得:
1)由 語言學(xué)家 給出;
2)通過 統(tǒng)計(jì)的方式,將那些高頻出現(xiàn)的 pattern 作為 morpheme,但是,這種結(jié)果搜集的morpheme勢(shì)必會(huì)含有一些噪音。
- 5,Bytes:可以使用 bytes作為輸出,最后將所有bytes串起來,對(duì)應(yīng)到相應(yīng)的vocabulary 去轉(zhuǎn)為 word。
由于在計(jì)算機(jī)中,無論是 中文,英文,還是其他外文,都對(duì)應(yīng)著 一串 bytes sequence(utf8),采用這種形式訓(xùn)練模型,可以實(shí)現(xiàn)真正的 language independent!
在2019年時(shí),上述output使用情況如下表所示:
三,語音數(shù)據(jù)集
總結(jié)
以上是生活随笔為你收集整理的语音识别中输入输出的可能形式有哪些的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Git常用指令及功能总结
- 下一篇: 玩大数据期间碰到的一些问题总结