當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

發(fā)布時(shí)間：2023/11/21 综合教程 87 生活家

生活随笔收集整理的這篇文章主要介紹了 Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

　　作者：camel

　　雷鋒網(wǎng) AI 科技評(píng)論按：當(dāng)前自然語(yǔ)言處理中的大多數(shù)方法都是數(shù)據(jù)驅(qū)動(dòng)的，大多數(shù)多語(yǔ)言模型（特別是神經(jīng)機(jī)器翻譯系統(tǒng)）都需要并行語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。大多數(shù)的并行文本都只是適用于幾個(gè)主要語(yǔ)言（例如英語(yǔ)、漢語(yǔ)），且限制于特定的領(lǐng)域。

　　為了解決這一問題，在去年七月份，F(xiàn)acebook 曾發(fā)布了第一個(gè)系統(tǒng)處理 Wikipedia 上所有語(yǔ)言（包括資源貧乏的語(yǔ)言和方言）的數(shù)據(jù)集 WikiMatrix，大約包含了億級(jí)的并行語(yǔ)料，覆蓋 1620 種語(yǔ)言對(duì)。

　　據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解，最近 Facebook 基于新的方法和數(shù)據(jù)源，開發(fā)并開源了一個(gè)目前為止最大的并行語(yǔ)料數(shù)據(jù)集 CCMatrix。這個(gè)數(shù)據(jù)集包含 45 億并行語(yǔ)料（是 WikiMatrix 的近 50 倍），覆蓋 576 種語(yǔ)言對(duì)。

　　論文：https://arxiv.org/abs/1911.04944

　　數(shù)據(jù)集開源地址：https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

　　語(yǔ)料庫(kù)構(gòu)建

　　首先，從語(yǔ)料來源上講。目前有幾個(gè)公共的多語(yǔ)言并行語(yǔ)料庫(kù)，主要來自一些國(guó)際會(huì)議（如 European Parliament 、the United Nations）的語(yǔ)料，這些都是專業(yè)的人工翻譯語(yǔ)料，使用語(yǔ)言較為正式，且僅限于政治主題。此外也有幾個(gè)依靠志愿者翻譯而形成的語(yǔ)料庫(kù)，例如 news commentary 、Opensub- Titles 、the TED corpus 等。2019 年 Facebook 的 Schwenk 等人曾利用 Wikipedia 中的語(yǔ)料進(jìn)行挖掘，從而開發(fā)了 WikiMatrix 數(shù)據(jù)集。

　　以上這些，從數(shù)據(jù)來源上講都有局限。為了使并行語(yǔ)料庫(kù)量大、覆蓋主題廣泛，F(xiàn)acebook 在 CCMatrix 這項(xiàng)工作中，選擇使用了隨機(jī)抓取 web 中的數(shù)據(jù)作為并行語(yǔ)料的來源，他們每個(gè)月隨機(jī)發(fā)送 url，從而獲得包含各種語(yǔ)言的網(wǎng)頁(yè)快照（TB 級(jí)）。

十次快照語(yǔ)料中，不同語(yǔ)言的單句數(shù)量（其中一次快照只包含英語(yǔ)）

　　然后通過預(yù)處理去除高達(dá) 70% 的重復(fù)數(shù)據(jù)（例如模板文件、導(dǎo)航菜單、cookie 等），并使用 fastText（語(yǔ)言識(shí)別器，可以識(shí)別 176 種語(yǔ)言）來識(shí)別文檔中的語(yǔ)言，最后使用一個(gè)在 Wikipedia 上訓(xùn)練的模型來過濾掉低質(zhì)量的內(nèi)容，只保留較低困惑度的文檔。如此處理獲得一個(gè)包含有 327 億個(gè)句子的 CCNet 數(shù)據(jù)集。

　　在這項(xiàng)工作中，使用的挖掘方法的底層思想是，首先學(xué)習(xí)一種多語(yǔ)言的語(yǔ)義嵌入，即在一個(gè)嵌入空間中語(yǔ)義上相似的句子會(huì)有較近的距離，而與它們所使用的語(yǔ)言無關(guān)。這意味著空間中的距離可以作為兩個(gè)句子是否是相互翻譯的指標(biāo)。

用于大規(guī)模訓(xùn)練多語(yǔ)言句嵌入的框架

　　不過由于余弦距離的絕對(duì)閾值在全局上并不一致，所以 Schwenk 在這里所采用的是 Margin criterion：

　　語(yǔ)料庫(kù)分析

　　在超過 320 億個(gè)句子中挖掘平行語(yǔ)料，計(jì)算上是非常昂貴的。在當(dāng)前版本的 CCMatrix 語(yǔ)料庫(kù)中，作者限制為 38 種語(yǔ)言。

　　CCMatrix：這里給出了單語(yǔ)文本的數(shù)量和提取的平行句子的數(shù)量(單位：百萬)，margin 閾值為 1.06，以及在 TED 測(cè)試中的 BLEU 分?jǐn)?shù)。（編者注：這是 11 月份數(shù)據(jù)，當(dāng)時(shí)數(shù)據(jù)集規(guī)模為 35 億并行語(yǔ)料，下同）

　　CCMatrix：每種語(yǔ)言對(duì)的并行語(yǔ)料數(shù)量(單位：百萬)，Margin 閾值為 1.06。舉例來說，希臘語(yǔ)/漢語(yǔ)對(duì)的語(yǔ)料數(shù)量為 470 萬。

　　定性評(píng)估　　

　　為了評(píng)估這個(gè)數(shù)據(jù)集的質(zhì)量，Schwenk 等人還利用這個(gè)數(shù)據(jù)集進(jìn)行了神經(jīng)機(jī)器翻譯系統(tǒng)的測(cè)試，并與幾個(gè)公共測(cè)試集進(jìn)行了對(duì)比。

　　1、在 TED 數(shù)據(jù)集上進(jìn)行測(cè)試

　　Schwenk 等人首先用 CCMatrix 對(duì)神經(jīng)翻譯系統(tǒng)（NMT）進(jìn)行訓(xùn)練，然后在 TED 數(shù)據(jù)集上進(jìn)行測(cè)試，結(jié)果如下：

　　這里只選擇了其中的 27 種語(yǔ)言。以上所有 BLEU 值的平均值為 14.3，英語(yǔ)對(duì)的平均 BLEU 值為 26.7，最高的 BLEU 值為 42.9。

　　當(dāng)然，在 TED 上的 SOTA 遠(yuǎn)比這些高；但需要注意，這里測(cè)試所用的 NMT 系統(tǒng)沒有使用 Transformer 框架等最新技術(shù)。

　　2、在 WMT'19 上評(píng)估

　　上圖是在 Newstest'18（NT'18）和 Newtest'19（NT‘19）測(cè)試集上的 BLEU 分?jǐn)?shù)。可以看到，使用 CCMatrix，可以提供非常有競(jìng)爭(zhēng)力的 BLEU 分?jǐn)?shù)。

　　3、在 WAT'19上評(píng)估

　　利用 CCMatrix 在亞洲翻譯研討會(huì)的俄語(yǔ)/日語(yǔ)翻譯任務(wù)上進(jìn)行的測(cè)試如上圖所示。這里所使用的模型與前面一樣，沒有 Transformer，沒有 layer dropout。盡管相比 SOTA 略差，但仍然在同一層次。

　　總結(jié)

　　CCMatrix 使 NMT 研究社區(qū)能夠利用比以前僅幾十種語(yǔ)言對(duì)更大的雙語(yǔ)料數(shù)據(jù)集。這可以加速創(chuàng)建更有效的 NMT 模型，這些模型可以使用更多的語(yǔ)言，尤其是語(yǔ)料庫(kù)相對(duì)有限的資源較少的模型。

　　由于規(guī)模龐大且使用了大量公共文本，或許 CCMatrix 將成為 NMT 領(lǐng)域中用于構(gòu)建和評(píng)估系統(tǒng)的最常用資源之一。

　　當(dāng)然，F(xiàn)acebook 在構(gòu)建 CCMatrix 過程中所提出的數(shù)據(jù)集構(gòu)建方法更值得推廣，或許能夠幫助更多人來創(chuàng)建大規(guī)模數(shù)據(jù)集。

　　參考資料：

　　facebook 開源官宣：https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/CCMatrix

　　論文：https://arxiv.org/abs/1911.04944CCMatrix

　　開源鏈接：https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

總結(jié)

以上是生活随笔為你收集整理的Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：估值 30 亿美元，连续 15 年纯远程
下一篇：美国各州对谷歌反垄断调查扩大：覆盖搜索广

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

總結(jié)