日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

發(fā)布時(shí)間:2023/12/14 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

《語(yǔ)言驅(qū)動(dòng)的用于語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型的并行數(shù)據(jù)增強(qiáng)》

論文地址:Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model

摘要

  • Code-Switch language modeling 語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型面臨兩大挑戰(zhàn)
    • data scarcity 數(shù)據(jù)不足
    • 包含兩種語(yǔ)言的擴(kuò)展詞詞匯表expanded vocabulary
  • 本文提出的計(jì)算方法
    • 使用 Matrix Language Frame theory 生成 人工語(yǔ)碼轉(zhuǎn)換數(shù)據(jù) synthetic code-switch data
      • 緩解了數(shù)據(jù)不足問(wèn)題(data scarcity)
    • 使用 增強(qiáng)的并行數(shù)據(jù)augmented parallel data 補(bǔ)充 真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)real code-switch data
    • 使用人工數(shù)據(jù)synthetic data預(yù)訓(xùn)練語(yǔ)言模型
  • 效果
    • 實(shí)際語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)減少2.5倍的情況下,預(yù)訓(xùn)練語(yǔ)言模型的性能與vanilla models相當(dāng)。
    • 使用人工語(yǔ)碼轉(zhuǎn)換數(shù)據(jù) synthetic code-switch data 預(yù)訓(xùn)練,使用真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)real code-switch data 進(jìn)行微調(diào),得到的基于RNN的語(yǔ)言模型的困惑度perplexity 明顯比只用真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)訓(xùn)練的模型
    • 困惑度perplexity 的降低會(huì)轉(zhuǎn)化為WER(詞錯(cuò)誤率,Word Error Rate) 降低

1. Introduction

  • Code-switching語(yǔ)碼轉(zhuǎn)換

    Wiki:語(yǔ)碼轉(zhuǎn)換指說(shuō)話者在同一段對(duì)話或句子里使用兩種以上的語(yǔ)言或方言

    • 多語(yǔ)者,一個(gè)句子里或不同不同句子間使用兩種及以上語(yǔ)言,如新加坡、香港等地。
    • 語(yǔ)碼轉(zhuǎn)換給語(yǔ)言建模帶來(lái)挑戰(zhàn)
      • 由于 data scarcity 數(shù)據(jù)不足以及包含兩種語(yǔ)言的擴(kuò)展詞詞匯表expanded vocabulary ,語(yǔ)碼轉(zhuǎn)換的語(yǔ)言模型法與單語(yǔ)模型匹配
    • 重要性
      • 下游任務(wù):語(yǔ)音識(shí)別ASR,機(jī)器翻譯都依賴語(yǔ)言模型,因此語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型是極具挑戰(zhàn)性的當(dāng)務(wù)之急
    • 存在的問(wèn)題
      • 語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)稀缺。語(yǔ)碼轉(zhuǎn)換出現(xiàn)頻次低,要學(xué)習(xí)這種稀疏的語(yǔ)碼轉(zhuǎn)換模式,需要更多的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù),但是現(xiàn)實(shí)中很少可用數(shù)據(jù),因?yàn)檎Z(yǔ)碼轉(zhuǎn)換主要是以口語(yǔ)形式存在,并且很難記錄足夠的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)來(lái)進(jìn)行語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型建模
    • 語(yǔ)碼轉(zhuǎn)換現(xiàn)有的解決方法
      • 使用語(yǔ)言信息歸納單詞詞典。將類別(class)[4,5,6,7]、詞性(Part-of-Speech)[8,9]或語(yǔ)言ID(language ID)[5]單詞輸入結(jié)合在一起,以提高語(yǔ)言模型對(duì)未知測(cè)試序列的泛化能力。
      • [10,11,12]中使用語(yǔ)碼轉(zhuǎn)換權(quán)限約束(permission constraints) 為語(yǔ)言模型提供語(yǔ)碼轉(zhuǎn)換概率。
      • 上述方法在不同的方面起作用,然而,訓(xùn)練數(shù)據(jù)資源不足,我們期待有更多可用的訓(xùn)練數(shù)據(jù)以獲得進(jìn)一步提升。本文希望生成人工數(shù)據(jù)以直接解決數(shù)據(jù)不足問(wèn)題
    • 合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)現(xiàn)有方法
      • 相關(guān)工作[13]中使用等價(jià)約束理論Equivalence Constraint theory [14, 15]生成英語(yǔ)和西班牙語(yǔ)的合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)
      • [16,17]使用詞嵌入Word embedding生成二元語(yǔ)法bigrams
      • 但是,關(guān)于語(yǔ)碼轉(zhuǎn)換句法(syntactic)結(jié)構(gòu)的語(yǔ)言學(xué)研究仍然是一個(gè)活躍的研究領(lǐng)域,并且對(duì)語(yǔ)碼轉(zhuǎn)換語(yǔ)篇本質(zhì)的理論還沒(méi)有達(dá)成共識(shí)
    • 解釋語(yǔ)碼轉(zhuǎn)換形成的三種主導(dǎo)理論:
      • Matrix Language Frame (MLF) theory [18], 主體語(yǔ)言框架理論,(本文采用MLF)
        • 觀點(diǎn):語(yǔ)碼轉(zhuǎn)換句子包括一個(gè)主導(dǎo)語(yǔ)言(matrix language)和插入語(yǔ)言(嵌入語(yǔ)言embedded language),插入的部分可以是單詞也可以是更大的結(jié)構(gòu),且符合主體語(yǔ)言的語(yǔ)法框架。
        • 選擇MLF的原因是據(jù)作者所知,還沒(méi)有人使用MLF生成用于語(yǔ)碼轉(zhuǎn)換語(yǔ)言模型建模的人工數(shù)據(jù)。
        • 作者在東南亞國(guó)家學(xué)習(xí)英語(yǔ)和漢語(yǔ)的語(yǔ)碼轉(zhuǎn)換,這是一個(gè)比英語(yǔ)和西班牙語(yǔ)等其他常見(jiàn)的語(yǔ)言對(duì)更遙遠(yuǎn)的語(yǔ)言對(duì)。作者認(rèn)為MLF在現(xiàn)實(shí)中很好地描述了該語(yǔ)言。
      • Equivalence Constraint theory [14, 15]等價(jià)約束理論
      • Functional Head Constraint theory [19, 20]. 功能頭約束理論
  • Language model fine-tuning 語(yǔ)言模型微調(diào)[21]

    • 語(yǔ)言模型通過(guò)微調(diào)以用于下游任務(wù),就像計(jì)算機(jī)視覺(jué)里ImageNet預(yù)訓(xùn)練的情況一樣。
    • 作者并沒(méi)有嚴(yán)格遵循提出的方法,如使用斜三角學(xué)習(xí)率和增加新的特定任務(wù)層
    • 作者的動(dòng)機(jī)是提出一個(gè)好的初始先驗(yàn),這樣后面的任務(wù)就能使用很少的數(shù)據(jù)得到提高
    • 這種預(yù)訓(xùn)練和微調(diào)技術(shù)還有快速收斂的優(yōu)點(diǎn)

2. Synthetic Data Generation 人工數(shù)據(jù)合成

  • aligned parallel data 對(duì)齊并行數(shù)據(jù)

    • MLF中的插入假設(shè)促進(jìn)了aligned parallel data 對(duì)齊并行數(shù)據(jù)的使用

    • 單詞級(jí)對(duì)齊。不考慮語(yǔ)法邊界,隨處可插,這與MLF相違背。如:本應(yīng)一起轉(zhuǎn)換的"this is"被分開(kāi)單獨(dú)轉(zhuǎn)換。

    • 短語(yǔ)級(jí)對(duì)齊。使用基于短語(yǔ)的對(duì)齊給語(yǔ)碼轉(zhuǎn)換點(diǎn)強(qiáng)加一些約束。

  • 2.1 基于短語(yǔ)的對(duì)齊

    • 不同于機(jī)器翻譯中的短語(yǔ)對(duì)齊,機(jī)器翻譯中的短語(yǔ)對(duì)齊對(duì)源句子到目標(biāo)句子的翻譯概率進(jìn)行優(yōu)化。

    • 本文關(guān)注的是口語(yǔ)中更可能一起出現(xiàn)的詞組

    • 在短語(yǔ)提取階段,我們想提取那些不違反對(duì)齊規(guī)則的口頭短語(yǔ)。如“human imagination”可以,但“l(fā)ibrary of human”不可以,因?yàn)樵跐h語(yǔ)主體中,違反了對(duì)齊規(guī)則。

    • 可以使用像Moses[22]這樣的統(tǒng)計(jì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行短語(yǔ)對(duì)齊短語(yǔ)提取

    • 生成的短語(yǔ)表還會(huì)包含一些長(zhǎng)的、不常見(jiàn)的短語(yǔ),應(yīng)將其剔除。

    • 嵌入語(yǔ)言應(yīng)該很,像“l(fā)ibrary of human imagination”不應(yīng)歸為一組。

    • 簡(jiǎn)單的頻率閾值不能捕獲大部分我們認(rèn)為的口頭短語(yǔ)

      • 低頻率閾值會(huì)得到包含有效語(yǔ)碼轉(zhuǎn)換點(diǎn)的長(zhǎng)短語(yǔ)。應(yīng)該把他們轉(zhuǎn)成更小的短語(yǔ)。

      • 高頻率閾值會(huì)忽略一些出現(xiàn)的少但有效的口頭短語(yǔ)。

      • 平衡:使用fr低絕對(duì)概率閾值過(guò)濾極端情況

      • w:短語(yǔ),P:包含w的短語(yǔ)集合

      • 使用短語(yǔ)長(zhǎng)度l和相對(duì)頻率fr從短語(yǔ)表中提取口頭短語(yǔ)。

      • 用提取出來(lái)的口頭短語(yǔ)單詞對(duì)齊生成人工語(yǔ)碼轉(zhuǎn)化數(shù)據(jù)

  • 2.2 基于語(yǔ)碼轉(zhuǎn)換概率的采樣 Sampling based on code-switch propbability

    • 問(wèn)題
      • 使用基于短語(yǔ)的對(duì)齊規(guī)則可以詳盡的生成人工語(yǔ)碼轉(zhuǎn)換文本所有可能的組合。最后生成的語(yǔ)料庫(kù)(corpus)會(huì)很大,原始的一元模型unigram分布會(huì)傾斜
      • 隨著句子長(zhǎng)度和對(duì)齊點(diǎn)的增加,語(yǔ)碼轉(zhuǎn)換組合呈指數(shù)增長(zhǎng),因此某些單詞的原始分布會(huì)比其他單詞大很多
      • 傾斜的一元分布會(huì)在數(shù)據(jù)中引入偏差,用這種數(shù)據(jù)進(jìn)行訓(xùn)練會(huì)最終影響語(yǔ)言模型。
    • 方法:
      • 使用采樣方法:給每個(gè)對(duì)齊的單詞或短語(yǔ)對(duì)分配語(yǔ)碼轉(zhuǎn)換概率Pcs,在語(yǔ)言模型訓(xùn)練的過(guò)程中動(dòng)態(tài)生成合成的句子。在每一次訓(xùn)練的迭代中,按照漢語(yǔ)文本的句法結(jié)構(gòu)生成句子,根據(jù)Pcs進(jìn)行語(yǔ)碼轉(zhuǎn)換,插入英語(yǔ)單詞或短語(yǔ),反之亦然。
      • 在迭代次數(shù)足夠的情況下,該模型能夠觀察到所有的語(yǔ)碼轉(zhuǎn)換組合,包括原始的單一語(yǔ)言句子。此外,單詞或短語(yǔ)的單字母計(jì)數(shù)將隨迭代次數(shù)成比例地增加。
  • 2.3 Adaptation適應(yīng)

    • 正如[23]指出的,任何語(yǔ)言模型都很難進(jìn)行域外評(píng)估。我們不僅無(wú)法獲得大量真實(shí)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù),也無(wú)法在目標(biāo)域中獲得大量并行數(shù)據(jù)。
    • 為此,我們實(shí)現(xiàn)了一個(gè)自適應(yīng)階段,以減輕預(yù)訓(xùn)練模型對(duì)測(cè)試數(shù)據(jù)的域不匹配影響,并在最后的訓(xùn)練步驟中提出了帶有域內(nèi)單語(yǔ)數(shù)據(jù)的模型
    • 通過(guò)這種方式,在對(duì)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)進(jìn)行微調(diào)后,其困惑度的改善主要是因?yàn)橛^察了真實(shí)的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù),而不是因?yàn)橛^察了域內(nèi)數(shù)據(jù)。

3. 實(shí)驗(yàn)

  • 3.1 語(yǔ)料庫(kù)

    • SEAME (South East Asia Mandarin-English)語(yǔ)料庫(kù)可用于自發(fā)的對(duì)話語(yǔ)音[24],是在隨意的對(duì)話和訪談的環(huán)境下錄制的。SEAME語(yǔ)料庫(kù)附帶文本轉(zhuǎn)錄。

      • SEAME語(yǔ)料庫(kù)分為單語(yǔ)語(yǔ)料庫(kù)SEAME Monolingual語(yǔ)碼轉(zhuǎn)換語(yǔ)料庫(kù)****,語(yǔ)碼轉(zhuǎn)換語(yǔ)料庫(kù)又以幾乎相同的比例分成Train、Dev、Test**,如上表所示。
      • SEAME的單語(yǔ)句子用于第2.3節(jié)中描述的適應(yīng)階段
      • 預(yù)處理步驟中,消除猶豫(暫停?)hesitation副語(yǔ)言標(biāo)記paralinguistic marker標(biāo)點(diǎn)符號(hào)punctuation,并使用斯坦福中文分詞器Standford Chinese segmenter[28]對(duì)中文文本進(jìn)行了分詞[28]。
      • SEAME Train,后來(lái)被稱為Train,是真實(shí)語(yǔ)碼轉(zhuǎn)換的唯一來(lái)源,并用它微調(diào)預(yù)訓(xùn)練的模型
    • 平行語(yǔ)料庫(kù)使用OpenSubtitle [25] and TedTalk[26],因?yàn)樗鼈兇蠖嗍亲园l(fā)語(yǔ)音,據(jù)說(shuō)具有高質(zhì)量的句子對(duì)齊效果,最重要的是有大量可用。

      • 在上圖中稱為Parallel,使用第2節(jié)提到的方法,生成人工語(yǔ)碼轉(zhuǎn)換語(yǔ)料庫(kù)(稱為Synthetic)
    • 使用**GIZA++**進(jìn)行對(duì)齊

    • 數(shù)據(jù)庫(kù)的組成概述如下:

      • 詞匯覆蓋率Vocabulary coverage是指整個(gè)SEAME語(yǔ)料庫(kù)的詞匯在平行語(yǔ)料庫(kù)中所占的百分比,中文為100%,英文為92%。
      • 轉(zhuǎn)換點(diǎn)分?jǐn)?shù)Switch Point Fraction(SPF)是一個(gè)句子里語(yǔ)碼轉(zhuǎn)換點(diǎn)與單詞邊界數(shù)量的比率。平均SPFs描述不同的SEAME子集。
      • 第3節(jié)和第4節(jié)中介紹的所有后續(xù)語(yǔ)言模型都使用69K的標(biāo)準(zhǔn)詞匯表,包括來(lái)自平行語(yǔ)料庫(kù)和Train的詞匯表。
  • 3.2 模型

    • 所有的實(shí)驗(yàn)都使用了一個(gè)標(biāo)準(zhǔn)的基于LSTM的語(yǔ)言模型[29,30],因?yàn)?strong>本文的主要目標(biāo)是解決數(shù)據(jù)的稀缺性,我們相信模型架構(gòu)也會(huì)在此方法的基礎(chǔ)上得到改進(jìn)。

    • 該語(yǔ)言模型由2個(gè)有300個(gè)隱藏單元的LSTM層組成,層與層之間的drop-out率為0.3[31]。wt是LSTM模型的輸入。

    • LSTM模型輸出的yt+1通過(guò)softmax對(duì)總詞匯量V進(jìn)行歸一化,得到預(yù)測(cè)詞的分布pi。最后,損失函數(shù)是交叉熵cross-entropy,Yi是正確預(yù)測(cè)的one-hot標(biāo)簽。

4. 結(jié)果

  • 所有的困惑度都是基于測(cè)試集

  • 在下面的實(shí)驗(yàn)中,我們針對(duì)每種測(cè)試場(chǎng)景分類計(jì)算兩組困惑度,一組是使用合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)預(yù)訓(xùn)練模型,另一組是使用訓(xùn)練集Train從頭開(kāi)始訓(xùn)練的模型

  • 需要注意的一件事是,預(yù)訓(xùn)練的模型已經(jīng)使用SEAME單語(yǔ)數(shù)據(jù)進(jìn)行了調(diào)整,以彌補(bǔ)第2.3節(jié)的調(diào)整階段中所述的領(lǐng)域差距

  • 基線模型是先使用SEAME單語(yǔ)數(shù)據(jù)從零開(kāi)始進(jìn)行訓(xùn)練,然后再使用訓(xùn)練集Train進(jìn)行訓(xùn)練,以確保模型之間的唯一區(qū)別是合成數(shù)據(jù)的預(yù)訓(xùn)練

  • 表2:不同訓(xùn)練場(chǎng)景下模型的困惑度。用于預(yù)訓(xùn)練的合成語(yǔ)料庫(kù)以轉(zhuǎn)換概率pcs = 0.7進(jìn)行短語(yǔ)對(duì)齊。

  • 模型PreCS2人工合成語(yǔ)料庫(kù)上進(jìn)行了預(yù)訓(xùn)練,并在訓(xùn)練集Train上進(jìn)行了微調(diào),其困惑度較表2中的基線模型減少了21%。在困惑度上的顯著改善是一個(gè)積極的跡象,表明了所提出的人工合成語(yǔ)碼轉(zhuǎn)換預(yù)訓(xùn)練框架的有效性。

  • 此外,我們還測(cè)試了使用原始平行語(yǔ)料庫(kù)預(yù)訓(xùn)練的模型(NoCS),使用SEAME單語(yǔ)進(jìn)行調(diào)整,然后使用Train進(jìn)行微調(diào),這與我們提出的微調(diào)模型的不同之處在于數(shù)據(jù)增強(qiáng)過(guò)程。它的復(fù)雜度是223,比基線略差。這說(shuō)明數(shù)據(jù)增強(qiáng)是必要的,如果沒(méi)有數(shù)據(jù)增強(qiáng),混合域數(shù)據(jù)將會(huì)損害目標(biāo)域模型。

  • 此外,未經(jīng)微調(diào)的預(yù)訓(xùn)練模型,即PreCS1,仍然可以得到359的困惑度,表明它是一個(gè)很好的先驗(yàn)。

  • 預(yù)訓(xùn)練模型還有更快收斂的優(yōu)勢(shì)。在相同學(xué)習(xí)率的條件下,一個(gè)從零開(kāi)始訓(xùn)練的模型需要20多個(gè)epoch來(lái)收斂,而對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)則需要不超過(guò)7個(gè)epoch。

  • 4.1 Effect on the Code-switching Word Sequence 對(duì)語(yǔ)碼轉(zhuǎn)換單詞順序的影響

    • 為了分析說(shuō)明這些改進(jìn)來(lái)自于語(yǔ)碼轉(zhuǎn)換片段,而不是句子的單語(yǔ)片段,我們將緊跟轉(zhuǎn)換點(diǎn)之后的單詞的平均困惑度制表,因?yàn)檫@些單詞受語(yǔ)碼轉(zhuǎn)換造成的數(shù)據(jù)稀缺影響最大,我們希望改進(jìn)它們的預(yù)測(cè)。同時(shí),我們不希望單語(yǔ)段使用合成的語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,所以我們也展示了非轉(zhuǎn)換點(diǎn)之后的單詞的困惑度。表3的結(jié)果證實(shí)了我們的說(shuō)法。

    • 合成數(shù)據(jù)預(yù)處理改進(jìn)了單語(yǔ)段,這并不奇怪,因?yàn)閱握Z(yǔ)段存在于語(yǔ)碼轉(zhuǎn)換上下文中。LSTM模型將根據(jù)過(guò)去可能包含語(yǔ)碼轉(zhuǎn)換詞的上下文來(lái)預(yù)測(cè)非語(yǔ)碼轉(zhuǎn)換詞,從而更好地對(duì)語(yǔ)碼轉(zhuǎn)換段進(jìn)行建模,也將改善單語(yǔ)段。

  • 4.2 Effect of Fine-tuning Data Ratio 微調(diào)數(shù)據(jù)比率的影響

    • 作者使用不同比例的訓(xùn)練集對(duì)模型進(jìn)行微調(diào),如表4所示。這模擬了實(shí)際情況,在這種情況下,我們可以為訓(xùn)練獲得有限數(shù)量的域內(nèi)數(shù)據(jù),并為預(yù)訓(xùn)練獲得更多的平行數(shù)據(jù)

    • 表4:使用不同比例(λ)的真實(shí)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)微調(diào)預(yù)訓(xùn)練模型得到的困惑度

    • 使用原始SEAME訓(xùn)練集的40%進(jìn)行訓(xùn)練就可以獲取和用全部訓(xùn)練集訓(xùn)練的模型幾乎相同的困惑度。因?yàn)槲覀冇懈嗟挠?xùn)練Train數(shù)據(jù),我們可以把困惑度降低到173,這比表2中的基線模型改善了21%。

    • 這個(gè)結(jié)果支持我們的觀點(diǎn),即生成的合成數(shù)據(jù)對(duì)語(yǔ)碼轉(zhuǎn)換語(yǔ)言建模有重要的貢獻(xiàn)。此外,合成數(shù)據(jù)是使用一個(gè)小的平行集生成的,并且隨著合成數(shù)據(jù)量的增加,結(jié)果有望得到改善。

  • 4.3 Effect of Different Switch Probability 不同轉(zhuǎn)換概率的影響

    • 表5解釋了為什么選擇pcs = 0.7。在沒(méi)有適應(yīng)階段的情況下,SPF=0.30時(shí)得到的困惑度最好,因?yàn)樗匀唤咏诒?中報(bào)道的spf=0.23的測(cè)試域。有適應(yīng)階段之后,與我們預(yù)期的相反,SPF值越接近測(cè)試域的合成數(shù)據(jù)表現(xiàn)越好,更高的SPF值表示通過(guò)語(yǔ)碼轉(zhuǎn)換的語(yǔ)料庫(kù)可以獲得最好的困惑度——359。這可能有助于模型學(xué)習(xí)更多可能的語(yǔ)碼轉(zhuǎn)換組合,而不是使用SPF較低的數(shù)據(jù)進(jìn)行訓(xùn)練,而適應(yīng)階段(包含域單語(yǔ)數(shù)據(jù))將對(duì)模型進(jìn)行微調(diào)。

    • 表5:未進(jìn)行微調(diào)的預(yù)訓(xùn)練模型中不同pcs和SPF對(duì)困惑度的影響。

  • 4.4 Effect of Phrase Based Alignment 基于短語(yǔ)進(jìn)行對(duì)齊的影響

    • 最后,我們提出了使用從短語(yǔ)表中基于短語(yǔ)長(zhǎng)度和相對(duì)頻率提取口頭短語(yǔ)基于短語(yǔ)的對(duì)齊方式短語(yǔ)長(zhǎng)度的影響如表6所示,頻率閾值的選取是基于對(duì)抽取的短語(yǔ)樣本的主觀評(píng)價(jià)。

    • 根據(jù)提取的短語(yǔ)對(duì)平行語(yǔ)料庫(kù)進(jìn)行對(duì)齊并生成合成語(yǔ)料庫(kù)

    • 使用pcs = 0.7是因?yàn)樗玫降睦Щ蠖茸詈?#xff0c;如表5所示。

    • 根據(jù)實(shí)驗(yàn),最好的短語(yǔ)長(zhǎng)度是2和3,因?yàn)樗鼈兡艿玫较嗤睦Щ蠖取?/p>

    • 基于短語(yǔ)的對(duì)齊始終比基于單詞的方法更好,這是由于在第2節(jié)中討論的轉(zhuǎn)換口頭短語(yǔ)的影響。

    • 長(zhǎng)短語(yǔ)的SPF值較低,這有效地阻止了某些看似合理的語(yǔ)碼轉(zhuǎn)換組合。然而,長(zhǎng)短語(yǔ)的負(fù)面影響并沒(méi)有在測(cè)試結(jié)果中體現(xiàn)出來(lái),這可能是由于測(cè)試領(lǐng)域的限制。

    • 總體上,我們使用提出的方法得到了173的困惑度,比之在訓(xùn)練集Train上訓(xùn)練的模型改進(jìn)了21%。

    • 表6:使用不同的合成語(yǔ)料庫(kù)重復(fù)整個(gè)預(yù)訓(xùn)練和微調(diào)過(guò)程,這些語(yǔ)料庫(kù)使用不同的短語(yǔ)長(zhǎng)度進(jìn)行對(duì)齊。短語(yǔ)長(zhǎng)度為1表示以單詞詞對(duì)齊的合成語(yǔ)料庫(kù)。

5 Benchmark against the State-of-the-Art

  • 比較了SEAME數(shù)據(jù)集上先進(jìn)語(yǔ)言模型

  • SEAME有兩個(gè)發(fā)行版本

  • SEAMA Phase I
  • SEAMA Phase II
    • SEAME Phase I的總符號(hào)數(shù)tokens大約是SEAME Phase II的60%。見(jiàn)表7:

  • 我們將我們提出的模型(稱為Synthetic CS)與表8中最先進(jìn)的語(yǔ)言模型進(jìn)行了比較

    • 表8:最新的語(yǔ)言模型在SEAME測(cè)試集得到的困惑度。帶+的模型表示改模型在SEAME Phase I上完成訓(xùn)練和測(cè)試。帶*的模型表示表示該模型在SEAME Phase II上完成訓(xùn)練和測(cè)試。

    • 因?yàn)閱握Z(yǔ)適應(yīng)數(shù)據(jù)來(lái)自SEAME,所以Synthetic CS使用Synthetic語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,且沒(méi)有自適應(yīng)階段。然后對(duì)預(yù)訓(xùn)練的模型使用Phase II Train進(jìn)行微調(diào),在Phase II Eval上進(jìn)行測(cè)試。為了與最先進(jìn)的語(yǔ)言模型保持一致,我們使用相同的25K詞匯表對(duì)模型進(jìn)行再訓(xùn)練和測(cè)試。基于表6,我們選擇短語(yǔ)長(zhǎng)度為2

    • 我們的模型困惑度為142.53,優(yōu)于RNNLM [8], FL+OF [8], LSTM [9] and FLM [4]。

    • 我們的模型僅使用標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)就實(shí)現(xiàn)了與多任務(wù)Multi-task[9]媲美的性能。

    • 和LSTM [9]相比,我們的困惑度降低了6.9%,網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)一步改善可能會(huì)在此基礎(chǔ)上進(jìn)一步改善困惑度。

  • ASR語(yǔ)音識(shí)別實(shí)驗(yàn)

    • 我們還在SEAME數(shù)據(jù)庫(kù)上進(jìn)行了語(yǔ)音識(shí)別實(shí)驗(yàn),訓(xùn)練時(shí)間為101.1小時(shí),評(píng)估時(shí)間為11.5小時(shí)。ASR系統(tǒng)是根據(jù)[33]建立的,聲學(xué)模型基于時(shí)延神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型是三元模型。系統(tǒng)的最佳詞錯(cuò)誤率WER是25.25%。為了證明困惑度的降低會(huì)轉(zhuǎn)化為WER的降低,我們使用Synthetic CS模型進(jìn)行了lattice rescoring。我們的預(yù)訓(xùn)練語(yǔ)言模型,沒(méi)有適應(yīng)階段,是在ASR中使用的訓(xùn)練集Train轉(zhuǎn)錄transcription上進(jìn)行微調(diào)的。詞錯(cuò)誤率WER從25.25%下降到23.80%,降低了1.45%。為了消除由于RNN語(yǔ)言模型所帶來(lái)的改進(jìn),我們還使用了一個(gè)沒(méi)有預(yù)訓(xùn)練的RNN語(yǔ)言模型來(lái)進(jìn)行lattice rescoring。該方法的最優(yōu)WER為24.11%,高于Synthetic CS模型,表明該方法對(duì)ASR等下游任務(wù)具有實(shí)際意義。

6 總結(jié)

  • 實(shí)驗(yàn)結(jié)果表明,我們提出的使用MLF理論生成合成語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)的計(jì)算方法是可行的。
  • 我們證明,與沒(méi)有使用合成數(shù)據(jù)訓(xùn)練的模型相比,使用合成數(shù)據(jù)作為真實(shí)語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)的補(bǔ)充可將困惑度降低21%。 為了獲得這個(gè)結(jié)果,我們用不同的短語(yǔ)長(zhǎng)度語(yǔ)碼轉(zhuǎn)換概率進(jìn)行實(shí)驗(yàn)。 結(jié)果與使用標(biāo)準(zhǔn)LSTM層的最先進(jìn)的模型相當(dāng)。 當(dāng)用于lattice rescoring時(shí),Synthetic CS模型的WER降低了1.45%。

總結(jié)

以上是生活随笔為你收集整理的论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。