日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对

發(fā)布時(shí)間:2023/11/21 综合教程 72 生活家
生活随笔 收集整理的這篇文章主要介紹了 Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

  作者:camel

  雷鋒網(wǎng) AI 科技評(píng)論按:當(dāng)前自然語(yǔ)言處理中的大多數(shù)方法都是數(shù)據(jù)驅(qū)動(dòng)的,大多數(shù)多語(yǔ)言模型(特別是神經(jīng)機(jī)器翻譯系統(tǒng))都需要并行語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。大多數(shù)的并行文本都只是適用于幾個(gè)主要語(yǔ)言(例如英語(yǔ)、漢語(yǔ)),且限制于特定的領(lǐng)域。

  為了解決這一問(wèn)題,在去年七月份,F(xiàn)acebook 曾發(fā)布了第一個(gè)系統(tǒng)處理 Wikipedia 上所有語(yǔ)言(包括資源貧乏的語(yǔ)言和方言)的數(shù)據(jù)集 WikiMatrix,大約包含了億級(jí)的并行語(yǔ)料,覆蓋 1620 種語(yǔ)言對(duì)。

  據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解,最近 Facebook 基于新的方法和數(shù)據(jù)源,開(kāi)發(fā)并開(kāi)源了一個(gè)目前為止最大的并行語(yǔ)料數(shù)據(jù)集 CCMatrix。這個(gè)數(shù)據(jù)集包含 45 億并行語(yǔ)料(是 WikiMatrix 的近 50 倍),覆蓋 576 種語(yǔ)言對(duì)。

  論文:https://arxiv.org/abs/1911.04944

  數(shù)據(jù)集開(kāi)源地址:https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

  語(yǔ)料庫(kù)構(gòu)建

  首先,從語(yǔ)料來(lái)源上講。目前有幾個(gè)公共的多語(yǔ)言并行語(yǔ)料庫(kù),主要來(lái)自一些國(guó)際會(huì)議(如 European Parliament 、the United Nations)的語(yǔ)料,這些都是專業(yè)的人工翻譯語(yǔ)料,使用語(yǔ)言較為正式,且僅限于政治主題。此外也有幾個(gè)依靠志愿者翻譯而形成的語(yǔ)料庫(kù),例如 news commentary 、Opensub- Titles 、the TED corpus 等。2019 年 Facebook 的 Schwenk 等人曾利用 Wikipedia 中的語(yǔ)料進(jìn)行挖掘,從而開(kāi)發(fā)了 WikiMatrix 數(shù)據(jù)集。

  以上這些,從數(shù)據(jù)來(lái)源上講都有局限。為了使并行語(yǔ)料庫(kù)量大、覆蓋主題廣泛,F(xiàn)acebook 在 CCMatrix 這項(xiàng)工作中,選擇使用了隨機(jī)抓取 web 中的數(shù)據(jù)作為并行語(yǔ)料的來(lái)源,他們每個(gè)月隨機(jī)發(fā)送 url,從而獲得包含各種語(yǔ)言的網(wǎng)頁(yè)快照(TB 級(jí))。


十次快照語(yǔ)料中,不同語(yǔ)言的單句數(shù)量(其中一次快照只包含英語(yǔ))

  然后通過(guò)預(yù)處理去除高達(dá) 70% 的重復(fù)數(shù)據(jù)(例如模板文件、導(dǎo)航菜單、cookie 等),并使用 fastText(語(yǔ)言識(shí)別器,可以識(shí)別 176 種語(yǔ)言)來(lái)識(shí)別文檔中的語(yǔ)言,最后使用一個(gè)在 Wikipedia 上訓(xùn)練的模型來(lái)過(guò)濾掉低質(zhì)量的內(nèi)容,只保留較低困惑度的文檔。如此處理獲得一個(gè)包含有 327 億個(gè)句子的 CCNet 數(shù)據(jù)集。

  在這項(xiàng)工作中,使用的挖掘方法的底層思想是,首先學(xué)習(xí)一種多語(yǔ)言的語(yǔ)義嵌入,即在一個(gè)嵌入空間中語(yǔ)義上相似的句子會(huì)有較近的距離,而與它們所使用的語(yǔ)言無(wú)關(guān)。這意味著空間中的距離可以作為兩個(gè)句子是否是相互翻譯的指標(biāo)。


用于大規(guī)模訓(xùn)練多語(yǔ)言句嵌入的框架

  不過(guò)由于余弦距離的絕對(duì)閾值在全局上并不一致,所以 Schwenk 在這里所采用的是 Margin criterion:


  語(yǔ)料庫(kù)分析

  在超過(guò) 320 億個(gè)句子中挖掘平行語(yǔ)料,計(jì)算上是非常昂貴的。在當(dāng)前版本的 CCMatrix 語(yǔ)料庫(kù)中,作者限制為 38 種語(yǔ)言。

  CCMatrix:這里給出了單語(yǔ)文本的數(shù)量和提取的平行句子的數(shù)量(單位:百萬(wàn)),margin 閾值為 1.06,以及在 TED 測(cè)試中的 BLEU 分?jǐn)?shù)。(編者注:這是 11 月份數(shù)據(jù),當(dāng)時(shí)數(shù)據(jù)集規(guī)模為 35 億并行語(yǔ)料,下同)

  CCMatrix:每種語(yǔ)言對(duì)的并行語(yǔ)料數(shù)量(單位:百萬(wàn)),Margin 閾值為 1.06。舉例來(lái)說(shuō),希臘語(yǔ)/漢語(yǔ)對(duì)的語(yǔ)料數(shù)量為 470 萬(wàn)。

  定性評(píng)估  

  為了評(píng)估這個(gè)數(shù)據(jù)集的質(zhì)量,Schwenk 等人還利用這個(gè)數(shù)據(jù)集進(jìn)行了神經(jīng)機(jī)器翻譯系統(tǒng)的測(cè)試,并與幾個(gè)公共測(cè)試集進(jìn)行了對(duì)比。

  1、在 TED 數(shù)據(jù)集上進(jìn)行測(cè)試

  Schwenk 等人首先用 CCMatrix 對(duì)神經(jīng)翻譯系統(tǒng)(NMT)進(jìn)行訓(xùn)練,然后在 TED 數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如下:

  這里只選擇了其中的 27 種語(yǔ)言。以上所有 BLEU 值的平均值為 14.3,英語(yǔ)對(duì)的平均 BLEU 值為 26.7,最高的 BLEU 值為 42.9。

  當(dāng)然,在 TED 上的 SOTA 遠(yuǎn)比這些高;但需要注意,這里測(cè)試所用的 NMT 系統(tǒng)沒(méi)有使用 Transformer 框架等最新技術(shù)。

  2、在 WMT'19 上評(píng)估

  上圖是在 Newstest'18(NT'18)和 Newtest'19(NT‘19)測(cè)試集上的 BLEU 分?jǐn)?shù)。可以看到,使用 CCMatrix,可以提供非常有競(jìng)爭(zhēng)力的 BLEU 分?jǐn)?shù)。

  3、在 WAT'19上評(píng)估

  利用 CCMatrix 在亞洲翻譯研討會(huì)的俄語(yǔ)/日語(yǔ)翻譯任務(wù)上進(jìn)行的測(cè)試如上圖所示。這里所使用的模型與前面一樣,沒(méi)有 Transformer,沒(méi)有 layer dropout。盡管相比 SOTA 略差,但仍然在同一層次。

  總結(jié)

  CCMatrix 使 NMT 研究社區(qū)能夠利用比以前僅幾十種語(yǔ)言對(duì)更大的雙語(yǔ)料數(shù)據(jù)集。這可以加速創(chuàng)建更有效的 NMT 模型,這些模型可以使用更多的語(yǔ)言,尤其是語(yǔ)料庫(kù)相對(duì)有限的資源較少的模型。

  由于規(guī)模龐大且使用了大量公共文本,或許 CCMatrix 將成為 NMT 領(lǐng)域中用于構(gòu)建和評(píng)估系統(tǒng)的最常用資源之一。

  當(dāng)然,F(xiàn)acebook 在構(gòu)建 CCMatrix 過(guò)程中所提出的數(shù)據(jù)集構(gòu)建方法更值得推廣,或許能夠幫助更多人來(lái)創(chuàng)建大規(guī)模數(shù)據(jù)集。

  參考資料:

  facebook 開(kāi)源官宣:https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/CCMatrix

  論文:https://arxiv.org/abs/1911.04944CCMatrix

  開(kāi)源鏈接:https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

總結(jié)

以上是生活随笔為你收集整理的Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。