當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文解读：《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

發(fā)布時(shí)間：2023/12/14 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了论文解读：《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

《語(yǔ)言驅(qū)動(dòng)的用于語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型的并行數(shù)據(jù)增強(qiáng)》

論文地址：Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model

摘要

Code-Switch language modeling 語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型面臨兩大挑戰(zhàn)
- data scarcity 數(shù)據(jù)不足
- 包含兩種語(yǔ)言的擴(kuò)展詞詞匯表expanded vocabulary
本文提出的計(jì)算方法
- 使用 Matrix Language Frame theory 生成 人工語(yǔ)碼轉(zhuǎn)換數(shù)據(jù) synthetic code-switch data
  - 緩解了數(shù)據(jù)不足問(wèn)題（data scarcity）
- 使用 增強(qiáng)的并行數(shù)據(jù)augmented parallel data 補(bǔ)充 真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)real code-switch data
- 使用人工數(shù)據(jù)synthetic data預(yù)訓(xùn)練語(yǔ)言模型
效果
- 在實(shí)際語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)減少2.5倍的情況下，預(yù)訓(xùn)練語(yǔ)言模型的性能與vanilla models相當(dāng)。
- 使用人工語(yǔ)碼轉(zhuǎn)換數(shù)據(jù) synthetic code-switch data 預(yù)訓(xùn)練，使用真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)real code-switch data 進(jìn)行微調(diào)，得到的基于RNN的語(yǔ)言模型的困惑度perplexity 明顯比只用真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)訓(xùn)練的模型低。
- 困惑度perplexity 的降低會(huì)轉(zhuǎn)化為WER（詞錯(cuò)誤率，Word Error Rate） 降低

1. Introduction

Code-switching語(yǔ)碼轉(zhuǎn)換

Wiki：語(yǔ)碼轉(zhuǎn)換指說(shuō)話者在同一段對(duì)話或句子里使用兩種以上的語(yǔ)言或方言
- 多語(yǔ)者，一個(gè)句子里或不同不同句子間使用兩種及以上語(yǔ)言，如新加坡、香港等地。
- 語(yǔ)碼轉(zhuǎn)換給語(yǔ)言建模帶來(lái)挑戰(zhàn)
  - 由于 data scarcity 數(shù)據(jù)不足以及包含兩種語(yǔ)言的擴(kuò)展詞詞匯表expanded vocabulary ，語(yǔ)碼轉(zhuǎn)換的語(yǔ)言模型法與單語(yǔ)模型匹配
- 重要性
  - 下游任務(wù)：語(yǔ)音識(shí)別ASR，機(jī)器翻譯都依賴語(yǔ)言模型，因此語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型是極具挑戰(zhàn)性的當(dāng)務(wù)之急
- 存在的問(wèn)題
  - 語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)稀缺。語(yǔ)碼轉(zhuǎn)換出現(xiàn)頻次低，要學(xué)習(xí)這種稀疏的語(yǔ)碼轉(zhuǎn)換模式，需要更多的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)，但是現(xiàn)實(shí)中很少可用數(shù)據(jù)，因?yàn)檎Z(yǔ)碼轉(zhuǎn)換主要是以口語(yǔ)形式存在，并且很難記錄足夠的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)來(lái)進(jìn)行語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型建模
- 語(yǔ)碼轉(zhuǎn)換現(xiàn)有的解決方法
  - 使用語(yǔ)言信息歸納單詞詞典。將類別(class)[4,5,6,7]、詞性(Part-of-Speech)[8,9]或語(yǔ)言ID(language ID)[5]和單詞輸入結(jié)合在一起，以提高語(yǔ)言模型對(duì)未知測(cè)試序列的泛化能力。
  - [10,11,12]中使用語(yǔ)碼轉(zhuǎn)換權(quán)限約束(permission constraints) 為語(yǔ)言模型提供語(yǔ)碼轉(zhuǎn)換概率。
  - 上述方法在不同的方面起作用，然而，訓(xùn)練數(shù)據(jù)資源不足，我們期待有更多可用的訓(xùn)練數(shù)據(jù)以獲得進(jìn)一步提升。本文希望生成人工數(shù)據(jù)以直接解決數(shù)據(jù)不足問(wèn)題。
- 合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)現(xiàn)有方法
  - 相關(guān)工作[13]中使用等價(jià)約束理論Equivalence Constraint theory [14, 15]生成英語(yǔ)和西班牙語(yǔ)的合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)
  - [16,17]使用詞嵌入Word embedding生成二元語(yǔ)法bigrams
  - 但是，關(guān)于語(yǔ)碼轉(zhuǎn)換句法(syntactic)結(jié)構(gòu)的語(yǔ)言學(xué)研究仍然是一個(gè)活躍的研究領(lǐng)域，并且對(duì)語(yǔ)碼轉(zhuǎn)換語(yǔ)篇本質(zhì)的理論還沒(méi)有達(dá)成共識(shí)
- 解釋語(yǔ)碼轉(zhuǎn)換形成的三種主導(dǎo)理論：
  - Matrix Language Frame (MLF) theory [18], 主體語(yǔ)言框架理論，（本文采用MLF）
    - 觀點(diǎn)：語(yǔ)碼轉(zhuǎn)換句子包括一個(gè)主導(dǎo)語(yǔ)言（matrix language）和插入語(yǔ)言（嵌入語(yǔ)言embedded language），插入的部分可以是單詞也可以是更大的結(jié)構(gòu)，且符合主體語(yǔ)言的語(yǔ)法框架。
    - 選擇MLF的原因是據(jù)作者所知，還沒(méi)有人使用MLF生成用于語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型建模的人工數(shù)據(jù)。
    - 作者在東南亞國(guó)家學(xué)習(xí)英語(yǔ)和漢語(yǔ)的語(yǔ)碼轉(zhuǎn)換，這是一個(gè)比英語(yǔ)和西班牙語(yǔ)等其他常見(jiàn)的語(yǔ)言對(duì)更遙遠(yuǎn)的語(yǔ)言對(duì)。作者認(rèn)為MLF在現(xiàn)實(shí)中很好地描述了該語(yǔ)言。
  - Equivalence Constraint theory [14, 15]，等價(jià)約束理論
  - Functional Head Constraint theory [19, 20]. 功能頭約束理論
Language model fine-tuning 語(yǔ)言模型微調(diào)[21]
- 語(yǔ)言模型通過(guò)微調(diào)以用于下游任務(wù)，就像計(jì)算機(jī)視覺(jué)里ImageNet預(yù)訓(xùn)練的情況一樣。
- 作者并沒(méi)有嚴(yán)格遵循提出的方法，如使用斜三角學(xué)習(xí)率和增加新的特定任務(wù)層
- 作者的動(dòng)機(jī)是提出一個(gè)好的初始先驗(yàn)，這樣后面的任務(wù)就能使用很少的數(shù)據(jù)得到提高
- 這種預(yù)訓(xùn)練和微調(diào)技術(shù)還有快速收斂的優(yōu)點(diǎn)

2. Synthetic Data Generation 人工數(shù)據(jù)合成

aligned parallel data 對(duì)齊并行數(shù)據(jù)
- MLF中的插入假設(shè)促進(jìn)了aligned parallel data 對(duì)齊并行數(shù)據(jù)的使用
- 單詞級(jí)對(duì)齊。不考慮語(yǔ)法邊界，隨處可插，這與MLF相違背。如：本應(yīng)一起轉(zhuǎn)換的"this is"被分開(kāi)單獨(dú)轉(zhuǎn)換。
- 短語(yǔ)級(jí)對(duì)齊。使用基于短語(yǔ)的對(duì)齊給語(yǔ)碼轉(zhuǎn)換點(diǎn)強(qiáng)加一些約束。
2.1 基于短語(yǔ)的對(duì)齊
- 不同于機(jī)器翻譯中的短語(yǔ)對(duì)齊，機(jī)器翻譯中的短語(yǔ)對(duì)齊對(duì)源句子到目標(biāo)句子的翻譯概率進(jìn)行優(yōu)化。
- 本文關(guān)注的是口語(yǔ)中更可能一起出現(xiàn)的詞組
- 在短語(yǔ)提取階段，我們想提取那些不違反對(duì)齊規(guī)則的口頭短語(yǔ)。如“human imagination”可以，但“l(fā)ibrary of human”不可以，因?yàn)樵跐h語(yǔ)主體中，違反了對(duì)齊規(guī)則。
- 可以使用像Moses[22]這樣的統(tǒng)計(jì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行短語(yǔ)對(duì)齊和短語(yǔ)提取
- 生成的短語(yǔ)表還會(huì)包含一些長(zhǎng)的、不常見(jiàn)的短語(yǔ)，應(yīng)將其剔除。
- 嵌入語(yǔ)言應(yīng)該很短，像“l(fā)ibrary of human imagination”不應(yīng)歸為一組。
- 簡(jiǎn)單的頻率閾值不能捕獲大部分我們認(rèn)為的口頭短語(yǔ)
  - 低頻率閾值會(huì)得到包含有效語(yǔ)碼轉(zhuǎn)換點(diǎn)的長(zhǎng)短語(yǔ)。應(yīng)該把他們轉(zhuǎn)成更小的短語(yǔ)。
  - 高頻率閾值會(huì)忽略一些出現(xiàn)的少但有效的口頭短語(yǔ)。
  - 平衡：使用fr和低絕對(duì)概率閾值過(guò)濾極端情況
  - w:短語(yǔ)，P：包含w的短語(yǔ)集合
  - 使用短語(yǔ)長(zhǎng)度l和相對(duì)頻率fr從短語(yǔ)表中提取口頭短語(yǔ)。
  - 用提取出來(lái)的口頭短語(yǔ)和單詞對(duì)齊生成人工語(yǔ)碼轉(zhuǎn)化數(shù)據(jù)
2.2 基于語(yǔ)碼轉(zhuǎn)換概率的采樣 Sampling based on code-switch propbability
- 問(wèn)題
  - 使用基于短語(yǔ)的對(duì)齊規(guī)則可以詳盡的生成人工語(yǔ)碼轉(zhuǎn)換文本所有可能的組合。最后生成的語(yǔ)料庫(kù)(corpus)會(huì)很大，原始的一元模型unigram分布會(huì)傾斜。
  - 隨著句子長(zhǎng)度和對(duì)齊點(diǎn)的增加，語(yǔ)碼轉(zhuǎn)換組合呈指數(shù)增長(zhǎng)，因此某些單詞的原始分布會(huì)比其他單詞大很多。
  - 傾斜的一元分布會(huì)在數(shù)據(jù)中引入偏差，用這種數(shù)據(jù)進(jìn)行訓(xùn)練會(huì)最終影響語(yǔ)言模型。
- 方法：
  - 使用采樣方法：給每個(gè)對(duì)齊的單詞或短語(yǔ)對(duì)分配語(yǔ)碼轉(zhuǎn)換概率Pcs，在語(yǔ)言模型訓(xùn)練的過(guò)程中動(dòng)態(tài)生成合成的句子。在每一次訓(xùn)練的迭代中，按照漢語(yǔ)文本的句法結(jié)構(gòu)生成句子，根據(jù)Pcs進(jìn)行語(yǔ)碼轉(zhuǎn)換，插入英語(yǔ)單詞或短語(yǔ)，反之亦然。
  - 在迭代次數(shù)足夠的情況下，該模型能夠觀察到所有的語(yǔ)碼轉(zhuǎn)換組合，包括原始的單一語(yǔ)言句子。此外，單詞或短語(yǔ)的單字母計(jì)數(shù)將隨迭代次數(shù)成比例地增加。
2.3 Adaptation適應(yīng)
- 正如[23]指出的，任何語(yǔ)言模型都很難進(jìn)行域外評(píng)估。我們不僅無(wú)法獲得大量真實(shí)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)，也無(wú)法在目標(biāo)域中獲得大量并行數(shù)據(jù)。
- 為此，我們實(shí)現(xiàn)了一個(gè)自適應(yīng)階段，以減輕預(yù)訓(xùn)練模型對(duì)測(cè)試數(shù)據(jù)的域不匹配影響，并在最后的訓(xùn)練步驟中提出了帶有域內(nèi)單語(yǔ)數(shù)據(jù)的模型。
- 通過(guò)這種方式，在對(duì)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)進(jìn)行微調(diào)后，其困惑度的改善主要是因?yàn)橛^察了真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)，而不是因?yàn)橛^察了域內(nèi)數(shù)據(jù)。

3. 實(shí)驗(yàn)

3.1 語(yǔ)料庫(kù)
- SEAME (South East Asia Mandarin-English)語(yǔ)料庫(kù)可用于自發(fā)的對(duì)話語(yǔ)音[24]，是在隨意的對(duì)話和訪談的環(huán)境下錄制的。SEAME語(yǔ)料庫(kù)附帶文本轉(zhuǎn)錄。
  - SEAME語(yǔ)料庫(kù)分為單語(yǔ)語(yǔ)料庫(kù)SEAME Monolingual和語(yǔ)碼轉(zhuǎn)換語(yǔ)料庫(kù)****，語(yǔ)碼轉(zhuǎn)換語(yǔ)料庫(kù)又以幾乎相同的比例分成Train、Dev、Test**，如上表所示。
  - SEAME的單語(yǔ)句子用于第2.3節(jié)中描述的適應(yīng)階段
  - 在預(yù)處理步驟中，消除了猶豫(暫停？)hesitation，副語(yǔ)言標(biāo)記paralinguistic marker和標(biāo)點(diǎn)符號(hào)punctuation，并使用斯坦福中文分詞器Standford Chinese segmenter[28]對(duì)中文文本進(jìn)行了分詞[28]。
  - SEAME Train，后來(lái)被稱為Train，是真實(shí)語(yǔ)碼轉(zhuǎn)換的唯一來(lái)源，并用它微調(diào)預(yù)訓(xùn)練的模型。
- 平行語(yǔ)料庫(kù)使用OpenSubtitle [25] and TedTalk[26]，因?yàn)樗鼈兇蠖嗍亲园l(fā)語(yǔ)音，據(jù)說(shuō)具有高質(zhì)量的句子對(duì)齊效果，最重要的是有大量可用。
  - 在上圖中稱為Parallel，使用第2節(jié)提到的方法，生成人工語(yǔ)碼轉(zhuǎn)換語(yǔ)料庫(kù)（稱為Synthetic）
- 使用**GIZA++**進(jìn)行對(duì)齊
- 數(shù)據(jù)庫(kù)的組成概述如下：
  - 詞匯覆蓋率Vocabulary coverage是指整個(gè)SEAME語(yǔ)料庫(kù)的詞匯在平行語(yǔ)料庫(kù)中所占的百分比，中文為100%，英文為92%。
  - 轉(zhuǎn)換點(diǎn)分?jǐn)?shù)Switch Point Fraction(SPF)是一個(gè)句子里語(yǔ)碼轉(zhuǎn)換點(diǎn)與單詞邊界數(shù)量的比率。平均SPFs描述不同的SEAME子集。
  - 第3節(jié)和第4節(jié)中介紹的所有后續(xù)語(yǔ)言模型都使用69K的標(biāo)準(zhǔn)詞匯表，包括來(lái)自平行語(yǔ)料庫(kù)和Train的詞匯表。
3.2 模型
- 所有的實(shí)驗(yàn)都使用了一個(gè)標(biāo)準(zhǔn)的基于LSTM的語(yǔ)言模型[29,30]，因?yàn)?strong>本文的主要目標(biāo)是解決數(shù)據(jù)的稀缺性，我們相信模型架構(gòu)也會(huì)在此方法的基礎(chǔ)上得到改進(jìn)。
- 該語(yǔ)言模型由2個(gè)有300個(gè)隱藏單元的LSTM層組成，層與層之間的drop-out率為0.3[31]。wt是LSTM模型的輸入。
- LSTM模型輸出的yt+1通過(guò)softmax對(duì)總詞匯量V進(jìn)行歸一化，得到預(yù)測(cè)詞的分布pi。最后，損失函數(shù)是交叉熵cross-entropy，Yi是正確預(yù)測(cè)的one-hot標(biāo)簽。

4. 結(jié)果

所有的困惑度都是基于測(cè)試集
在下面的實(shí)驗(yàn)中，我們針對(duì)每種測(cè)試場(chǎng)景分類計(jì)算兩組困惑度，一組是使用合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)預(yù)訓(xùn)練模型，另一組是使用訓(xùn)練集Train從頭開(kāi)始訓(xùn)練的模型。
需要注意的一件事是，預(yù)訓(xùn)練的模型已經(jīng)使用SEAME單語(yǔ)數(shù)據(jù)進(jìn)行了調(diào)整，以彌補(bǔ)第2.3節(jié)的調(diào)整階段中所述的領(lǐng)域差距。
基線模型是先使用SEAME單語(yǔ)數(shù)據(jù)從零開(kāi)始進(jìn)行訓(xùn)練，然后再使用訓(xùn)練集Train進(jìn)行訓(xùn)練，以確保模型之間的唯一區(qū)別是合成數(shù)據(jù)的預(yù)訓(xùn)練。
表2:不同訓(xùn)練場(chǎng)景下模型的困惑度。用于預(yù)訓(xùn)練的合成語(yǔ)料庫(kù)以轉(zhuǎn)換概率pcs = 0.7進(jìn)行短語(yǔ)對(duì)齊。
模型PreCS2在人工合成語(yǔ)料庫(kù)上進(jìn)行了預(yù)訓(xùn)練，并在訓(xùn)練集Train上進(jìn)行了微調(diào)，其困惑度較表2中的基線模型減少了21%。在困惑度上的顯著改善是一個(gè)積極的跡象，表明了所提出的人工合成語(yǔ)碼轉(zhuǎn)換預(yù)訓(xùn)練框架的有效性。
此外，我們還測(cè)試了使用原始平行語(yǔ)料庫(kù)預(yù)訓(xùn)練的模型(NoCS)，使用SEAME單語(yǔ)進(jìn)行調(diào)整，然后使用Train進(jìn)行微調(diào)，這與我們提出的微調(diào)模型的不同之處在于數(shù)據(jù)增強(qiáng)過(guò)程。它的復(fù)雜度是223，比基線略差。這說(shuō)明數(shù)據(jù)增強(qiáng)是必要的，如果沒(méi)有數(shù)據(jù)增強(qiáng)，混合域數(shù)據(jù)將會(huì)損害目標(biāo)域模型。
此外，未經(jīng)微調(diào)的預(yù)訓(xùn)練模型，即PreCS1，仍然可以得到359的困惑度，表明它是一個(gè)很好的先驗(yàn)。
預(yù)訓(xùn)練模型還有更快收斂的優(yōu)勢(shì)。在相同學(xué)習(xí)率的條件下，一個(gè)從零開(kāi)始訓(xùn)練的模型需要20多個(gè)epoch來(lái)收斂，而對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)則需要不超過(guò)7個(gè)epoch。
4.1 Effect on the Code-switching Word Sequence 對(duì)語(yǔ)碼轉(zhuǎn)換單詞順序的影響
- 為了分析說(shuō)明這些改進(jìn)來(lái)自于語(yǔ)碼轉(zhuǎn)換片段，而不是句子的單語(yǔ)片段，我們將緊跟轉(zhuǎn)換點(diǎn)之后的單詞的平均困惑度制表，因?yàn)檫@些單詞受語(yǔ)碼轉(zhuǎn)換造成的數(shù)據(jù)稀缺影響最大，我們希望改進(jìn)它們的預(yù)測(cè)。同時(shí)，我們不希望單語(yǔ)段使用合成的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，所以我們也展示了非轉(zhuǎn)換點(diǎn)之后的單詞的困惑度。表3的結(jié)果證實(shí)了我們的說(shuō)法。
- 合成數(shù)據(jù)預(yù)處理也改進(jìn)了單語(yǔ)段，這并不奇怪，因?yàn)閱握Z(yǔ)段存在于語(yǔ)碼轉(zhuǎn)換上下文中。LSTM模型將根據(jù)過(guò)去可能包含語(yǔ)碼轉(zhuǎn)換詞的上下文來(lái)預(yù)測(cè)非語(yǔ)碼轉(zhuǎn)換詞，從而更好地對(duì)語(yǔ)碼轉(zhuǎn)換段進(jìn)行建模，也將改善單語(yǔ)段。
4.2 Effect of Fine-tuning Data Ratio 微調(diào)數(shù)據(jù)比率的影響
- 作者使用不同比例的訓(xùn)練集對(duì)模型進(jìn)行微調(diào)，如表4所示。這模擬了實(shí)際情況，在這種情況下，我們可以為訓(xùn)練獲得有限數(shù)量的域內(nèi)數(shù)據(jù)，并為預(yù)訓(xùn)練獲得更多的平行數(shù)據(jù)。
- 表4:使用不同比例(λ)的真實(shí)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)微調(diào)預(yù)訓(xùn)練模型得到的困惑度
- 使用原始SEAME訓(xùn)練集的40%進(jìn)行訓(xùn)練就可以獲取和用全部訓(xùn)練集訓(xùn)練的模型幾乎相同的困惑度。因?yàn)槲覀冇懈嗟挠?xùn)練Train數(shù)據(jù)，我們可以把困惑度降低到173，這比表2中的基線模型改善了21%。
- 這個(gè)結(jié)果支持我們的觀點(diǎn)，即生成的合成數(shù)據(jù)對(duì)語(yǔ)碼轉(zhuǎn)換語(yǔ)言建模有重要的貢獻(xiàn)。此外，合成數(shù)據(jù)是使用一個(gè)小的平行集生成的，并且隨著合成數(shù)據(jù)量的增加，結(jié)果有望得到改善。
4.3 Effect of Different Switch Probability 不同轉(zhuǎn)換概率的影響
- 表5解釋了為什么選擇pcs = 0.7。在沒(méi)有適應(yīng)階段的情況下，SPF=0.30時(shí)得到的困惑度最好，因?yàn)樗匀唤咏诒?中報(bào)道的spf=0.23的測(cè)試域。有適應(yīng)階段之后，與我們預(yù)期的相反，SPF值越接近測(cè)試域的合成數(shù)據(jù)表現(xiàn)越好，更高的SPF值表示通過(guò)語(yǔ)碼轉(zhuǎn)換的語(yǔ)料庫(kù)可以獲得最好的困惑度——359。這可能有助于模型學(xué)習(xí)更多可能的語(yǔ)碼轉(zhuǎn)換組合，而不是使用SPF較低的數(shù)據(jù)進(jìn)行訓(xùn)練，而適應(yīng)階段(包含域單語(yǔ)數(shù)據(jù))將對(duì)模型進(jìn)行微調(diào)。
- 表5:未進(jìn)行微調(diào)的預(yù)訓(xùn)練模型中不同pcs和SPF對(duì)困惑度的影響。
4.4 Effect of Phrase Based Alignment 基于短語(yǔ)進(jìn)行對(duì)齊的影響
- 最后，我們提出了使用從短語(yǔ)表中基于短語(yǔ)長(zhǎng)度和相對(duì)頻率提取口頭短語(yǔ)的基于短語(yǔ)的對(duì)齊方式。短語(yǔ)長(zhǎng)度的影響如表6所示，頻率閾值的選取是基于對(duì)抽取的短語(yǔ)樣本的主觀評(píng)價(jià)。
- 根據(jù)提取的短語(yǔ)對(duì)平行語(yǔ)料庫(kù)進(jìn)行對(duì)齊并生成合成語(yǔ)料庫(kù)。
- 使用pcs = 0.7是因?yàn)樗玫降睦Щ蠖茸詈?#xff0c;如表5所示。
- 根據(jù)實(shí)驗(yàn)，最好的短語(yǔ)長(zhǎng)度是2和3，因?yàn)樗鼈兡艿玫较嗤睦Щ蠖取?/p>
- 基于短語(yǔ)的對(duì)齊始終比基于單詞的方法更好，這是由于在第2節(jié)中討論的轉(zhuǎn)換口頭短語(yǔ)的影響。
- 長(zhǎng)短語(yǔ)的SPF值較低，這有效地阻止了某些看似合理的語(yǔ)碼轉(zhuǎn)換組合。然而，長(zhǎng)短語(yǔ)的負(fù)面影響并沒(méi)有在測(cè)試結(jié)果中體現(xiàn)出來(lái)，這可能是由于測(cè)試領(lǐng)域的限制。
- 總體上，我們使用提出的方法得到了173的困惑度，比之在訓(xùn)練集Train上訓(xùn)練的模型改進(jìn)了21%。
- 表6:使用不同的合成語(yǔ)料庫(kù)重復(fù)整個(gè)預(yù)訓(xùn)練和微調(diào)過(guò)程，這些語(yǔ)料庫(kù)使用不同的短語(yǔ)長(zhǎng)度進(jìn)行對(duì)齊。短語(yǔ)長(zhǎng)度為1表示以單詞詞對(duì)齊的合成語(yǔ)料庫(kù)。

5 Benchmark against the State-of-the-Art

比較了SEAME數(shù)據(jù)集上先進(jìn)語(yǔ)言模型
SEAME有兩個(gè)發(fā)行版本
SEAMA Phase I
SEAMA Phase II

SEAME Phase I的總符號(hào)數(shù)tokens大約是SEAME Phase II的60%。見(jiàn)表7：

我們將我們提出的模型(稱為Synthetic CS)與表8中最先進(jìn)的語(yǔ)言模型進(jìn)行了比較。
- 表8：最新的語(yǔ)言模型在SEAME測(cè)試集得到的困惑度。帶+的模型表示改模型在SEAME Phase I上完成訓(xùn)練和測(cè)試。帶*的模型表示表示該模型在SEAME Phase II上完成訓(xùn)練和測(cè)試。
- 因?yàn)閱握Z(yǔ)適應(yīng)數(shù)據(jù)來(lái)自SEAME，所以Synthetic CS使用Synthetic語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練，且沒(méi)有自適應(yīng)階段。然后對(duì)預(yù)訓(xùn)練的模型使用Phase II Train進(jìn)行微調(diào)，在Phase II Eval上進(jìn)行測(cè)試。為了與最先進(jìn)的語(yǔ)言模型保持一致，我們使用相同的25K詞匯表對(duì)模型進(jìn)行再訓(xùn)練和測(cè)試。基于表6，我們選擇短語(yǔ)長(zhǎng)度為2。
- 我們的模型困惑度為142.53，優(yōu)于RNNLM [8], FL+OF [8], LSTM [9] and FLM [4]。
- 我們的模型僅使用標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)就實(shí)現(xiàn)了與多任務(wù)Multi-task[9]媲美的性能。
- 和LSTM [9]相比，我們的困惑度降低了6.9%，網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)一步改善可能會(huì)在此基礎(chǔ)上進(jìn)一步改善困惑度。
ASR語(yǔ)音識(shí)別實(shí)驗(yàn)
- 我們還在SEAME數(shù)據(jù)庫(kù)上進(jìn)行了語(yǔ)音識(shí)別實(shí)驗(yàn)，訓(xùn)練時(shí)間為101.1小時(shí)，評(píng)估時(shí)間為11.5小時(shí)。ASR系統(tǒng)是根據(jù)[33]建立的，聲學(xué)模型基于時(shí)延神經(jīng)網(wǎng)絡(luò)，語(yǔ)言模型是三元模型。系統(tǒng)的最佳詞錯(cuò)誤率WER是25.25%。為了證明困惑度的降低會(huì)轉(zhuǎn)化為WER的降低，我們使用Synthetic CS模型進(jìn)行了lattice rescoring。我們的預(yù)訓(xùn)練語(yǔ)言模型，沒(méi)有適應(yīng)階段，是在ASR中使用的訓(xùn)練集Train轉(zhuǎn)錄transcription上進(jìn)行微調(diào)的。詞錯(cuò)誤率WER從25.25%下降到23.80%，降低了1.45%。為了消除由于RNN語(yǔ)言模型所帶來(lái)的改進(jìn)，我們還使用了一個(gè)沒(méi)有預(yù)訓(xùn)練的RNN語(yǔ)言模型來(lái)進(jìn)行lattice rescoring。該方法的最優(yōu)WER為24.11%，高于Synthetic CS模型，表明該方法對(duì)ASR等下游任務(wù)具有實(shí)際意義。

6 總結(jié)

實(shí)驗(yàn)結(jié)果表明，我們提出的使用MLF理論生成合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)的計(jì)算方法是可行的。
我們證明，與沒(méi)有使用合成數(shù)據(jù)訓(xùn)練的模型相比，使用合成數(shù)據(jù)作為真實(shí)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)的補(bǔ)充可將困惑度降低21％。為了獲得這個(gè)結(jié)果，我們用不同的短語(yǔ)長(zhǎng)度和語(yǔ)碼轉(zhuǎn)換概率進(jìn)行實(shí)驗(yàn)。結(jié)果與使用標(biāo)準(zhǔn)LSTM層的最先進(jìn)的模型相當(dāng)。當(dāng)用于lattice rescoring時(shí)，Synthetic CS模型的WER降低了1.45％。

總結(jié)

以上是生活随笔為你收集整理的论文解读：《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：概率论的学习和整理--番外11：10球里
下一篇：几种 VR 的数据传输方案