如何制作多语种发音词典?多语种发音词典的制作方法!
多語種發(fā)音詞典制作方法分享
本文分享者:數(shù)據(jù)堂 AI-Lab & 數(shù)據(jù)產(chǎn)品中心 王麗媛
一、為什么制作發(fā)音詞典
(一)、因為發(fā)音詞典使用廣泛
語音識別、語音合成。在語音合成數(shù)據(jù)制作中,文本標(biāo)注環(huán)節(jié)需著重處理音素標(biāo)注問題。
(二)、獨(dú)立數(shù)據(jù)資產(chǎn)
數(shù)據(jù)產(chǎn)品市場的熱門數(shù)據(jù)資源產(chǎn)品
發(fā)音詞典和語種一一對應(yīng):一個語種只需要一個發(fā)音詞典
發(fā)音詞典里包含的詞匯盡可能全,至少包含語音數(shù)據(jù)里的所有詞
可以一直添加新詞匯及對應(yīng)的音標(biāo),不斷擴(kuò)充詞典規(guī)模
二、什么是發(fā)音詞典
(一)、標(biāo)音系統(tǒng)
IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音標(biāo)、 CMU音標(biāo) …
1、IPA
每一個可分辨的讀音使用一個符號來表示
107個單獨(dú)字母用于表示輔音和元音;
31個變音符號用于修飾輔音和元音;
19個用于表示超音段成分(包括音長、聲調(diào)、重 音、語調(diào)等)的特殊符號;
舉例:馬來語單詞:p??????mba??
每種語言都有專門的音位系統(tǒng)
怎么打印音標(biāo)符號?
- 選擇合適字體:包含標(biāo)音系統(tǒng)中的所有符號
- 下載IPA輸入法:將EN鍵盤模式轉(zhuǎn)換成IPA模式
- 轉(zhuǎn)換標(biāo)音系統(tǒng):使用ASCII符號標(biāo)音系統(tǒng)
支持IPA音標(biāo)的可用字體
下載IPA輸入法
2、SAMPA
以IPA為基礎(chǔ),只使用 ASCII值在 [32,126] 區(qū)間的可打印的符號。
解釋:在郵件、博客、論壇等網(wǎng)站上支持的字體非常有限,且在跨平臺、跨語言傳輸時許多符號不可以被正確接收。比如,從英國鍵盤傳送過來的英鎊符號(£,ASCII 156)在其他國家可能被接收為!、#等符號。
符號
包括大小寫字母A-Za-z、數(shù)字0-9、標(biāo)點(diǎn)符號! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符號# $ % & * + < = > @ \ ^ _ ` | ~、空格。
與IPA的映射
- 小寫字母a-z保持不變
- 其他字符由上述符號
重新編碼
大多數(shù)歐洲語言都已發(fā)展了SAMPA表,每張表中都包含了該語言里的所有語音
3、X-SAMPA & Kirshenbaum
SAMPA
SAMPA表有多種語言版本,每種版本設(shè)計時都只針對該語言所用到的音標(biāo),因此不同版本的SAMPA表互不相容。
X-SAMPA
X-SAMPA是為了統(tǒng)一各種SAMPA字母表而產(chǎn)生的,并且擴(kuò)展至包含所有國際音標(biāo)符號,能夠把所有音標(biāo)轉(zhuǎn)寫成可打印符號。
Kirshenbaum
也稱作ASCII-IPA,是另一種ASCII標(biāo)音系統(tǒng)
4、多樣性
K.K.音標(biāo)
CMU音標(biāo)
- 很多語言學(xué)家把國際音標(biāo)做局部修改以標(biāo)記他們所研究的語言,所以國際音標(biāo)也有很多種。
- K.K.音標(biāo)是將國際音標(biāo)中符合美式英語的符號截取出來,再加上美音特有的兒音組成的音標(biāo)符號。
- 可以把國際音標(biāo)當(dāng)作英式音標(biāo),把K.K.音標(biāo)當(dāng)作美式音標(biāo),但注意, K.K.音標(biāo)也是國際音標(biāo)的一種。
- CMU音標(biāo)更便于語音識別的訓(xùn)練和解碼。
(二)、標(biāo)音方法
國際音標(biāo)【音標(biāo)】只有一種,但用法【標(biāo)音法】有兩種
根據(jù)語音標(biāo)示的嚴(yán)謹(jǐn)程度,可分為嚴(yán)式標(biāo)音和寬式標(biāo)音
1、嚴(yán)式標(biāo)音
[方括號]
通常包括較多的語音細(xì)節(jié),即使那些細(xì)節(jié)在該語言中并不被用于區(qū)分語義。
2、寬式標(biāo)音
/斜線/
通常僅記錄能區(qū)分語義的語音特征,而忽略無關(guān)的細(xì)節(jié)。
小結(jié)
嚴(yán)式標(biāo)音法在標(biāo)注時較不會有模棱兩可的情況
嚴(yán)式標(biāo)音法過于追求細(xì)節(jié)而導(dǎo)致過于復(fù)雜
在通常使用中,使用寬式標(biāo)音法比較合適
為什么寬式標(biāo)音法也正確?
【音位系統(tǒng)】
音位并不是一種實(shí)際的語音,一種音位可以有數(shù)種不同的發(fā)音,但人們在心理上認(rèn)為它們是相同的。
比如在現(xiàn)代漢語中,音位/a/可以表示[?]、[?]、[a]、[ɑ]、[?]、[?]等
比如在英語中,音位/p/可以表示[p]、[p?]等
在寬式標(biāo)音中,同一音位內(nèi)的音素變化,在一門語言中是自然而然發(fā)生的。
三、怎么制作發(fā)音詞典
(一)、流程
1、語料搜集
自有語料
開源語料
以韓語為例:
自有語料 —> 444372條詞匯
zeroth_korean 開源項目 —> 486727條詞匯
維基詞條 —> 63745條詞匯
||
總語料 —> 883724條詞匯
2、文本處理
3、發(fā)音規(guī)則整理
請教專家、調(diào)研論文、維基查詢
4、字形-音標(biāo)轉(zhuǎn)換
5、發(fā)音詞典
以韓語為例:
兩個文件:姓名詞匯.xlsx 非姓名詞匯.xlsx
三列數(shù)據(jù):韓語詞匯 IPA音標(biāo) 羅馬音標(biāo)
四、思考
清晰的發(fā)音規(guī)則
干凈的語料
程序的開發(fā)
五、總結(jié)
關(guān)鍵點(diǎn):
在開始之前,必須了解該語言的字形結(jié)構(gòu)、音韻結(jié)構(gòu)
為達(dá)到98%以上的準(zhǔn)確率,必須充分理解專家意見、確保發(fā)音規(guī)則的準(zhǔn)確性
總結(jié)
以上是生活随笔為你收集整理的如何制作多语种发音词典?多语种发音词典的制作方法!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python数据类型与运算符号
- 下一篇: 计算获取最小值和最大值