日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聊聊机器翻译界的“灌水与反灌水之战”!

發布時間:2024/7/5 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聊聊机器翻译界的“灌水与反灌水之战”! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | Willie_桶桶
編 | 智商掉了一地

針對機器翻譯領域如何提高和判斷實驗可信度,這篇ACL2021的oustanding paper邁出了關鍵的一步!(來讀!全文在末尾)

作為不停讀論文和調參煉丹的科研黨,也許在我們的身邊總會出現這樣類似的對話:

案例1: xxx博士不講武德,竟然讓我把一部分測試集加入到訓練集里面去,這是在公然蔑視學術道德?

案例2: 嘿嘿,調了調句子的最大長度,評測性能終于刷上去了。

案例3: 哇靠,那個人在作弊,baseline用BERT,自己的模型竟然用BERT-Large。

案例4: 就這個指標比SOTA好,其他幾個指標都不行,要不就貼好的指標吧,老天保佑reviewer不要發現這個漏洞。

案例5: 單模態的性能也太強了吧,這讓多模態效果怎么發論文?還是隨便跑跑baseline,把性能調低點。

案例6: 調了一上午的參數,這次效果終于比SOTA強了,趕緊記錄一下,順便保存好checkpoint。

案例7: 這論文寫的評測代碼竟然是錯的,我說性能怎么比我復現的好那么多。

案例8: 剛剛發郵件詢問作者為啥引用我的實驗效果那么低,他竟然說抄錯了。

隨著AI領域的持續火熱,越來越多的同學在"想方設法"地設計算法來刷新任務性能,并產出了一篇篇精妙絕倫的論文。相關領域會議投稿量呈現出爆炸式地增長,然而投稿論文的質量參差不齊,作為一個普通投稿人,如何設計實驗以更加有說服力地證明提出方法的有效性;以及作為一個審稿人,如何快速判斷這篇論文提出的算法是否可(guan)信(shui),是值得深思的問題。針對機器翻譯領域如何提高和判斷實驗可信度,下面這篇ACL2021的oustanding paper邁出了關鍵的一步!

論文標題
Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

論文鏈接
https://aclanthology.org/2021.acl-long.566.pdf

1 背景

過去10年間涌現了大量提升機器翻譯性能的算法,這些算法通過與前人的模型對比自動評測指標,比如BLEU分數值,來凸顯其性能。隨著論文報告的分數值越來越高,我們不禁要問,這些論文的評測方式真的有說服力嗎?算法真的有效嗎?整個社區是朝著良性的方向發展,還是灌水之風日漸嚴重?

為了回答以上問題,本文評估了過往10年間(2010 ~ 2020)發表在ACL相關會議的769篇機器翻譯領域論文,著重對論文評測進行了分析,包括:

  • 評價指標的多樣性

  • 統計顯著性檢驗

  • 直接復制前人實驗結果

  • 數據劃分和預處理

基于分析結果,本文揭露了造成可疑評估的一個個陷阱,反映出當前社區正在朝著令人擔憂的方向發展。

2 令人失望的評估結果

通過對769篇論文的評估,作者揭露了當前機器翻譯評測中令人擔憂的4個陷阱。

2.1 稱霸機器翻譯的BLEU

上圖展示了10年間各種評價指標在機器翻譯論文中所占的比重,BLEU以壓倒性的優勢成為了最熱門的評價指標,幾乎99%的論文都用它來衡量算法的優越性,而其他改進的評測指標則逐漸被學者們忽視。眾所周知,BLEU作為一種自動評價指標存在一些缺陷,它僅僅能反應出模型某些特定方面的優勢,所以有很多工作致力于研究更加合理的自動評測指標。

然而,一個很諷刺的現象是:過去10年間有超過108種改進的評測指標,其中很多更容易使用并且表現出比BLEU更加契合人類的評測模式,比如chrF,但大部分從未被人使用過;長此以往,這些自動評測的研究還有存在的意義嗎?

為了說明僅僅依賴一種評價指標來衡量翻譯模型性能是不充分的,作者統計了多種提交至WMT20的模型,使用BLEU和chrF評測指標的排名情況,結果如下表所示。

從表中可以看出,使用BLEU作為評價指標時,NiuTrans系統是 → 賽道中排名第一的模型,而當使用chrF指標時,Tohoku-AIP-NTT系統要優于NiuTrans系統。這反映出僅使用BLEU是無法準確得出某個模型更優的結論,機器翻譯社區應該鼓勵使用更優的評價指標來作為BLEU的補充或者替代品。

2.2 被遺忘的統計顯著性檢驗

統計顯著性檢驗是一種確保實驗結果并非巧合的標準方法。在機器翻譯領域,統計顯著性檢驗早已被用于自動評測指標中,即評估兩個機器翻譯系統之間評測分值的差異是否巧合。直觀上,這個檢測能更加有說服力地反映算法的有效性,但近十年來使用該檢驗的論文越來越少。

上圖展示了各年ACL相關會議論文中使用統計顯著性檢驗的比例。從圖中我們可以發現,人們越來越不喜歡使用這個檢驗,即使它可以顯著的提升論文可信度,導致這種現象出現的原因是有更好的提升可信度的方式,還是因為論文頁數限制而無法添加多余實驗(xin xu)呢?

此外,作者設計了另一組驗證實驗來說明,統計顯著性檢驗結果與自動評測指標提升幅度沒有直接的聯系。在實驗中,Custom 1操作指的是將模型輸出中的最后一句替換為空白行,Custom 2操作對應將模型輸出中最后一句替換為重復同一個詞10k次的句子。

實驗結果如上表所示,其中第一行表示各系統提交到WMT20的原始結果。觀察表中結果可以發現,Custom 2操作會導致BLEU和chrF指標分值的劇烈下降,但在統計顯著性檢驗實驗中,并沒有發現任何系統要明顯優于其他的系統。

2.3 一直copy一直爽

隨著NLP論文爆發式的增長,直接復制前人報告的實驗結果進行對比,是一種省時又省力的方式,在機器翻譯領域亦是如此。

上圖是近10年間,各年直接復制前人實驗結果進行對比的論文比重。越來越多的論文更加傾向于直接復制實驗結果而不是復現相關實驗,這在2015年以后顯得尤為明顯;拷貝結果的確可以省時省力,但引發的問題是:那些論文是否提供了足夠信息,以確保它取得的分值和前人報告的結果具有可比性。

那么,稍微對模型輸出進行處理會造成性能的差異嗎?作者設計了一組實驗,測試被科研人員廣泛使用的后處理方式對性能的影響。針對模型輸出結果進行后處理的操作包括:是否完全小寫化、是否標點規范化、是否進行tokenize處理。實驗結果如上表所示,不同的后處理方式對自動評測結果有很大的影響,比如進行完全小寫化處理,可以將Tohoku-AIP-NTT系統在 → 賽道和Volctrans系統在 → 賽道的評測BLEU值分別提高1.4和1.6,這在翻譯領域可謂是顯著的提升。

2.4 評測中數據的"藝術"

數據集通常被分為訓練集、驗證集和測試集,以用于模型學習和評測,不同的數據預處理方式可以帶來各種“期待”的結論。機器翻譯領域論文大多提出新算法以提高翻譯準確度(因變量),而評測新的算法對因變量的影響時,需要保持其他所有自變量(例如數據集)不變,否則無法保證算法性能的可信度。

那么實際情況又是怎樣的呢?作者統計了近十年進行性能對比卻使用不同數據的論文比例,結果如上圖所示。十年來,越來越多的論文在進行對比實驗時使用了不一致數據,在這種設定下,我們無法判斷出性能的提升到底是因為算法的優越還是數據的"藝術"。

為了說明數據的"藝術"對性能的影響,作者設計了一組對比實驗,評估各種被廣泛使用的數據預處理方式對結果造成的影響,包括數據最大長度、是否Truecase處理、過濾其他語言文本噪音、刪減1個語料。實驗結果如上表所示,簡單地改變數據集中句子的長度或者進行Truecase操作,都會導致各種評價指標和顯著性檢驗結果劇烈波動,所以要真正凸顯算法的有效性,保證數據一致性是不可或缺的。

3 反擊灌水的攻與防

通過評估近10年769篇ACL相關會議論文,本文發現了當前機器翻譯領域普遍存在的4個陷阱,并且給出了關于如何增強論文可信度以及判別論文結果的指導方案。

針對提高論文結果可信度,需要:

  • 不應該僅使用BLEU作為評測指標,也需要結合其他更加合適的自動評測指標及人工評測。

  • 無論自動評測指標分值提高有多大,都應該盡量進行統計顯著性檢驗。

  • 盡量不要直接拷貝別人的實驗結果,如果不可避免,要保證結果具有可比性。

  • 要保證所有的數據集以及預處理方式一致。

對于評估論文實驗結果的可信度,可以通過回答以下問題進行打分(每個yes得1分,分數越高越可信):

  • 是否使用了比BLEU更能與人類判斷相關聯的指標,或者進行了人工評估?(yes/no)

  • 是否進行了統計顯著性檢驗?(yes/no)

  • 是否為論文計算了自動度量分數而不是從其他工作中復制?如果復制,是否所有復制的和比較的分數都通過確保其可比性的工具(例如 SacreBLEU)計算得出?(yes/no)

  • 如果對比的機器翻譯系統是為了凸顯算法的優越性,那么系統間是否使用了相同的數據集及預處理方式?(yes/no)

4.總結

當前對于生成任務,評價指標仍然不甚完善,各種"藝術性"操作也經常層出不窮??磻T了身邊謎之操作的你,是否愿意支持評測規范化,加入反擊的陣營呢?

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結

以上是生活随笔為你收集整理的聊聊机器翻译界的“灌水与反灌水之战”!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 精品国产区一区二 | 97碰| 欧美乱轮 | 91精品久久久久久久 | 欧美人与动牲交xxxxbbbb | 国产视频a | 亚洲区精品 | 国产精品66| 海角国产乱辈乱精品视频 | 第一区免费在线观看 | 夜夜骑天天干 | 强伦轩人妻一区二区电影 | 一级大毛片| 久操网在线 | 日本三级精品 | 丰满尤物白嫩啪啪少妇 | 日韩一区二 | 色先锋影院 | 超碰免费97 | 天堂在线一区二区 | 美女四肢被绑在床扒衣 | 国产精品99久久久久久久久久久久 | 伊人春色在线 | 亚洲天堂99| 国产懂色av| 黄色一及片 | 国产极品一区 | 久射网 | 网站黄在线观看 | 在线成人免费电影 | 成人免费黄色av | 日韩成人在线观看 | 亚洲高清视频在线 | 亚洲av无码一区二区三区网址 | 黄色的视频网站 | 欧美日韩在线视频 | 亚洲免费久久 | 天堂精品一区二区三区 | 欧美国产日韩在线 | 男女插鸡视频 | 亚洲色图日韩 | 性活交片大全免费看 | 欧美性精品 | 亚洲深夜av | 王者后宫yin肉h文催眠 | 狠狠艹av| 污视频网址在线观看 | 91蝌蚪91九色白浆 | va婷婷在线免费观看 | 凸凹人妻人人澡人人添 | 涩涩一区 | 久久观看 | av收藏小四郎最新地址 | 日本久久久久久久久 | 男女免费观看视频 | 国产精品www.| 中国一级片在线观看 | 欧美一级一级一级 | av天天看| 久久精品丝袜高跟鞋 | 视频精品一区二区 | 国产思思99re99在线观看 | 骚虎视频在线观看 | 亚洲爱爱片 | 国产精品人妖 | 人人射人人爱 | 欧美成人三级视频 | 欧美一区日韩一区 | 青草伊人久久 | 亚洲av无码一区东京热久久 | 裸体视频软件 | 波多野结衣绝顶大高潮 | 岛国片在线免费观看 | 老司机综合网 | www国产精品 | 成人区人妻精品一区二区不卡视频 | 欧美黄色免费 | 国产黄 | 黄色免费入口 | 香蕉视频色 | 在线免费视频 | 国产亚洲自拍一区 | 免费看欧美一级特黄a大片 国产免费的av | 伊人成人动漫 | 一级特黄录像免费看 | 亚洲黄一区 | 久久国产精品一区二区三区 | 久久精品毛片 | 姑娘第5集在线观看免费 | 国产精品aaaa | 久久久精品毛片 | 亚洲乱码国产乱码精品精大量 | 国产日韩欧美精品一区二区 | 欧美色综合| 欧美精品v国产精品v日韩精品 | 国产无遮挡呻吟娇喘视频 | 中文字幕在线观看亚洲 | 香蕉国产精品视频 | www操操操 |