當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别中输入输出的可能形式有哪些

發(fā)布時(shí)間：2023/12/20 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别中输入输出的可能形式有哪些小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

序，語音信號(hào)的前處理

1，語音數(shù)據(jù)如何轉(zhuǎn)化為features?

拿到10ms的語音數(shù)據(jù)后，常會(huì)利用一定大小的window將語音數(shù)據(jù) 切分成若干份（在語音識(shí)別中，由window生成的一份語音片段被稱為frame)，每份語音片段在通過特定的數(shù)據(jù)轉(zhuǎn)換方式（如：MFCC) 轉(zhuǎn)成 feature，最后在所有這些轉(zhuǎn)化后的features拼接起來作為最終輸入model 的 input。
需要注意的是，window在移動(dòng)時(shí)，其移動(dòng)步長(zhǎng)常小于 length of window，因此，有window切分的語音片段，其信息大量冗余，這也在一定程度上加快了數(shù)據(jù)的處理速度。

2，語音數(shù)據(jù)的標(biāo)注方法

給定一個(gè)語音片段，直接將其內(nèi)容轉(zhuǎn)為文本信息，據(jù)此，獲得一個(gè) train sample。

一，語音識(shí)別模型的輸入類型

1，直接將語音信號(hào)轉(zhuǎn)為數(shù)值作為 model 的 feature 輸入模型
2，在 deeplearning 流行以前，常將 MFCC 作為 model 的 feature 輸入模型，其dimension為39
3，deeplearning 得到極大發(fā)展以后，常將 filter bank output 作為 model 的 feature 輸入模型，其dimension為80

由原始語音信號(hào) 到 filter bank 到最復(fù)雜的feature MFCC 的轉(zhuǎn)化過程如下：

二，語音識(shí)別模型的輸出類型

1，Phoneme：a unit of sound , 比英文英標(biāo)還要小的單位

使用Phoneme作為output，需要額外建立一個(gè) 詞典，將 word 和 phoneme 對(duì)應(yīng)起來，從而能根據(jù) 輸出的 Phonemes 得到對(duì)應(yīng)的 word。
值得一提的是，phoneme 需要語言學(xué)的知識(shí)，phoneme詞典并沒有統(tǒng)一的規(guī)定，因此，不同的學(xué)者產(chǎn)生的詞典不一，在使用過程中難以統(tǒng)一。

2，Grapheme：smallest unit of a writing system

以英文為例，其組成單元為：26個(gè)英文字母，空格，標(biāo)點(diǎn)符號(hào)。以中文為例，其組成單元為方塊字。
Grapheme存在的一個(gè)問題是：同音不同字，以英文為例，發(fā)音為/k/的字母可能為 c 也可能為 k，需要model 有很強(qiáng)的辨識(shí)能力才能準(zhǔn)確辯時(shí)出來。
其優(yōu)點(diǎn)在于，grapheme無需創(chuàng)建詞典，只需將output串起來即可得到詞。

3，word

對(duì)于英文來講，由于不同的詞之間會(huì)以空格分開，因此，分詞很easy，但是，在外文中，word是可以被創(chuàng)造的，這也意味著 vocabulary 可能需要無限延長(zhǎng)。
對(duì)于中文來講，詞之間沒有明顯的分割標(biāo)志，outputs 還需近一些分詞工具才能得到分詞結(jié)果。

4，Morpheme：the smallest meaningful unit，在英文里，grapheme < morpheme <word。

舉例說明：
unbreakable 可以由3個(gè)morpheme組成：un , break, able
rekillable 可以由3個(gè)morpheme組成：re, kill, able
Morpheme可以通過2種方式獲得：
1）由語言學(xué)家給出；
2）通過統(tǒng)計(jì)的方式，將那些高頻出現(xiàn)的 pattern 作為 morpheme，但是，這種結(jié)果搜集的morpheme勢(shì)必會(huì)含有一些噪音。

5，Bytes：可以使用 bytes作為輸出，最后將所有bytes串起來，對(duì)應(yīng)到相應(yīng)的vocabulary 去轉(zhuǎn)為 word。

由于在計(jì)算機(jī)中，無論是中文，英文，還是其他外文，都對(duì)應(yīng)著一串 bytes sequence(utf8)，采用這種形式訓(xùn)練模型，可以實(shí)現(xiàn)真正的 language independent！

在2019年時(shí)，上述output使用情況如下表所示：

三，語音數(shù)據(jù)集

總結(jié)

以上是生活随笔為你收集整理的语音识别中输入输出的可能形式有哪些的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。