當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

审视AI界的“SOTA成瘾”丨AI学者万字论述

發(fā)布時(shí)間：2024/1/8 ChatGpt 55 豆豆

生活随笔收集整理的這篇文章主要介紹了审视AI界的“SOTA成瘾”丨AI学者万字论述小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SOTA，State Of The Art，是一個(gè)AI界家喻戶曉的說法。

這個(gè)詞意味著某個(gè)模型在某些具體任務(wù)中達(dá)到了“目前最佳水平”。許多AI研究都在追逐最先進(jìn)的 (SOTA) 數(shù)字，而且有理由相信，未來還會(huì)有更多的論文以此為出發(fā)點(diǎn)。

這個(gè)領(lǐng)域的大部分從業(yè)者對(duì)這種風(fēng)潮已習(xí)以為常，但在AI學(xué)者Kenneth Ward Church看來，對(duì)SOTA的一味推崇并不全是“獎(jiǎng)賞”，也是有相應(yīng)代價(jià)的。

在他與Valia Kordoni合著的文章Emerging Trends: SOTA-Chasing中，他們?cè)敿?xì)地闡述了追逐SOTA可能造成的三種負(fù)面效應(yīng)：

1.排行榜強(qiáng)調(diào)競(jìng)爭(zhēng)，這分散了人們對(duì)該領(lǐng)域更重要機(jī)遇的注意力；
2.對(duì)SOTA的追逐阻礙了語言學(xué)、詞典編纂、心理學(xué)等領(lǐng)域的研究人員進(jìn)行跨學(xué)科合作；
3.一些聲稱SOTA的成果可能會(huì)讓業(yè)界產(chǎn)生不切實(shí)際的期望，這可能會(huì)導(dǎo)致又一個(gè)人工智能的寒冬。

“數(shù)據(jù)實(shí)戰(zhàn)派”將其中的重點(diǎn)論述部分整理如下：

一、激勵(lì)和合作：排行榜的“雙面效應(yīng)”

你追求的度量是什么，那么你得到的就會(huì)是什么，這是老生常談了。

排行榜強(qiáng)調(diào)的是贏家和輸家。如果你用谷歌搜索"meme: mine is bigger than yours"，你會(huì)發(fā)現(xiàn)一堆粗魯?shù)摹⒂字傻?、甚至是危險(xiǎn)的圖片。

TREC(文本檢索會(huì)議)強(qiáng)調(diào)合作競(jìng)爭(zhēng)，而不只是競(jìng)爭(zhēng)。Voorhees在SIGIR-2020的主題演講中，以及在ACL-2021 benchmarking研討會(huì)上的受邀演講中指出:

l 競(jìng)爭(zhēng)可能會(huì)給你更大的蛋糕……
l ……然而合作會(huì)讓整個(gè)蛋糕變大

TREC參與者被要求簽署一份協(xié)議，明令禁止宣傳TREC的結(jié)果。這項(xiàng)禁令在TREC成立25周年的錄像中被多次提及。盡管參與者們很欣賞這一原則，但吹噓的誘惑卻難以抗拒。

Voorhees提出了一個(gè)重要的觀點(diǎn)。TREC深度學(xué)習(xí)方面的概述論文，例如(Craswell et al. 2020)，其中的方法分為三種類型:nnlm(神經(jīng)網(wǎng)絡(luò)語言模型，如BERT)、nn(其他類型的神經(jīng)網(wǎng)絡(luò))和trad(傳統(tǒng)方法)。圖1顯示了nnlm的性能最好，而trad的性能最差。通過這種方式，合作競(jìng)爭(zhēng)產(chǎn)生了重要的洞察力，能夠以有意義的方式推動(dòng)領(lǐng)域的發(fā)展，這與強(qiáng)調(diào)競(jìng)爭(zhēng)的排行榜不同，而更像是我的排行榜比你的排行榜更重要。

圖1. ACL-2021的默認(rèn)概念

作為合作競(jìng)爭(zhēng)和競(jìng)爭(zhēng)的第二個(gè)例子，考慮MRQA (Machine Reading for Question answer)。對(duì)論文的呼吁強(qiáng)調(diào)了許多令人欽佩的目標(biāo)，如域轉(zhuǎn)移、可解釋性、健壯性和錯(cuò)誤分析，但不幸的是，公開任務(wù)以排行榜為導(dǎo)向，并祝賀獲獎(jiǎng)?wù)?#xff0c;而沒有提到更令人欽佩的目標(biāo)。

有了稍微不同的設(shè)計(jì),公開任務(wù)可以為域轉(zhuǎn)移提供一些有趣的見解。表1列出了18個(gè)QA基準(zhǔn)測(cè)試,分成三組6個(gè)基準(zhǔn)測(cè)試。這三個(gè)組分別用于訓(xùn)練、驗(yàn)證和測(cè)試。假設(shè)我們沒有使用這組火車/驗(yàn)證/測(cè)試分割，我們使用了許多不同的分割。我們能發(fā)現(xiàn)，一些分割比另一些更好嗎？

表1. ACL-2021的主題

MRQA 確定了 18 個(gè)基準(zhǔn)測(cè)試之間的一些有趣的相似點(diǎn)和不同點(diǎn)：

l 文本來源：Wikipedia/網(wǎng)絡(luò)片段/其他
l Wikipedia (7個(gè)基準(zhǔn)測(cè)試): DROP, HotpotQA, QAMR, RelationExtraction, SQuAD, TREC, Natural Questions
l 網(wǎng)絡(luò)片段(3個(gè)基準(zhǔn)測(cè)試): TriviaQA, SearchQA, ComplexWebQ
l 其他 (8個(gè)基準(zhǔn)測(cè)試): MCTest, RACE, DuoRC, NewsQA, BioASQ, QAST, BioProcess, TextbookQA
l 問題的來源：眾包/領(lǐng)域?qū)＜?其他
l 眾包（9個(gè)基準(zhǔn)測(cè)試）：ComplexWebQ, DROP, DuoRC, HotpotQA, MCTest, NewsQA, QAMR, SQuAD, TREC
l 領(lǐng)域?qū)＜?#xff08;5個(gè)基準(zhǔn)測(cè)試）：BioASQ, BioProcess, QAST, RACE, TextbookQA
l 其他（4個(gè)基準(zhǔn)測(cè)試）：SearchQA, Questions Natural, RelationExtraction, TriviaQA
l 答案的來源：基于文檔/不基于文檔
l 基于文檔（9個(gè)基準(zhǔn)測(cè)試）：SQuAD HotpotQA, DROP, RACE, TextbookQA, BioProcess, MCTest, QAMR, QAST
l 不基于文檔（9個(gè)基準(zhǔn)測(cè)試）：NewsQA TriviaQA, SearchQA, Natural Questions, BioASQ, DuoRC, RelationExtraction, ComplexWebQ, TREC

知道這些模式是否對(duì)遷移來說是重要的，這個(gè)問題十分有趣。例如，有相當(dāng)明確的證據(jù)表明，構(gòu)建（眾包）問題比查詢?nèi)罩局械膯栴}更容易。

例如，TREC QA 于 1999 年從“構(gòu)建”問題開始，但由于構(gòu)建問題對(duì)于系統(tǒng)而言太容易且不切實(shí)際，因此很快從查詢?nèi)罩局械暮罄m(xù) TREC QA 方向（2000-2007）轉(zhuǎn)向“真實(shí)”問題?；谶@些觀察，在問題、文檔和/或答案的來源方面彼此相似的基準(zhǔn)之間遷移也可能更有效。通過這種方式，合作競(jìng)爭(zhēng)可以產(chǎn)生重要的見解，以比排行榜和競(jìng)爭(zhēng)更有意義的方式推動(dòng)該領(lǐng)域的發(fā)展。

當(dāng)基準(zhǔn)是現(xiàn)實(shí)的時(shí)，它還有助于推進(jìn)該領(lǐng)域。MRQA 中的大多數(shù)基準(zhǔn)測(cè)試都基于學(xué)術(shù)界的基準(zhǔn)測(cè)試，自然問題除外。為了構(gòu)建更現(xiàn)實(shí)的基準(zhǔn)，建議與行業(yè)合作并確?；鶞?zhǔn)代表他們關(guān)心的實(shí)際問題。多家公司參與了多項(xiàng)基準(zhǔn)測(cè)試。

TREC QA (1999–2007) 和 IBM Watson之間也有聯(lián)系。在這種情況下，IBM 于 2006 年開始使用為 TREC QA設(shè)計(jì)的系統(tǒng)，發(fā)現(xiàn)該系統(tǒng)無法很好地解決Jeopardy問題，正如在 TREC 25 周年慶典上所討論的那樣。

經(jīng)過 5 年的努力，IBM 系統(tǒng)在 2011 年擊敗了兩個(gè)最好的人類 Jeopardy 玩家，但他們 2011 年的系統(tǒng)可能與 2006 年的系統(tǒng)有很大不同，因?yàn)槌渌?#xff0c;TREC QA 任務(wù)并不能很好地代表 Jeopardy 任務(wù)。Jeopardy 任務(wù)是IBM市場(chǎng)營(yíng)銷的一個(gè)重要問題，盡管網(wǎng)絡(luò)搜索等問題可能比 Jeopardy 更真實(shí)。

不幸的是，雖然我們都知道IBM贏了，但人們對(duì)它是如何實(shí)現(xiàn)的，以及這一成就如何推動(dòng)該領(lǐng)域朝著更令人欽佩的目標(biāo)前進(jìn)的卻少之又少。我們應(yīng)該聽從Voorhees的建議，以競(jìng)合取代競(jìng)爭(zhēng)。關(guān)鍵不在于誰獲勝，而在于推動(dòng)該領(lǐng)域發(fā)展的洞察力。

二、吸走房間里的氧氣

過度追逐SOTA的結(jié)果是什么？

其中一個(gè)結(jié)果便是，在一個(gè)關(guān)于計(jì)算語言學(xué)的會(huì)議上發(fā)表計(jì)算語言學(xué)論文越來越難了。

那些準(zhǔn)備發(fā)表人生第一篇ACL論文的學(xué)生們可能會(huì)翻開機(jī)器學(xué)習(xí)的教科書，而不是計(jì)算語言學(xué)的教科書。

ACL會(huì)議過去更具包容性。

我們?cè)?jīng)在會(huì)議上看到更多來自不同領(lǐng)域的人，比如語言學(xué)、哲學(xué)、詞典編纂、心理學(xué)等。ACL的領(lǐng)域曾經(jīng)延伸到HLT(人類語言技術(shù))，結(jié)合了計(jì)算語言學(xué)、語音和信息檢索/網(wǎng)絡(luò)搜索。很多人曾經(jīng)在更多的領(lǐng)域/場(chǎng)所發(fā)表文章:計(jì)算語言學(xué)(ACL, EMNLP, NAACL, EACL, Coling)，機(jī)器學(xué)習(xí)(NeurIPS)，語音(ICASSP, Interspeech)，信息檢索(SIGIR,TREC)，網(wǎng)絡(luò)搜索(WWW, WSDM)，數(shù)據(jù)挖掘(KDD)，語言資源(LREC)，等等。

為什么我們?cè)贏CL見不到這些人了?

當(dāng)我們參加了一個(gè)為查克·菲爾莫爾舉辦的ACL-2014研討會(huì)時(shí)，我們清楚地發(fā)現(xiàn)他們中的許多人不再受歡迎了。研討會(huì)的氣氛真是酸甜苦百般滋味。他們很感激查克獲得了終身成就獎(jiǎng)，但是他們也在哀悼他的去世，他們擔(dān)心他們的工作與ACL的走向有關(guān)。

菲爾莫爾的“Case for Case”在谷歌Scholar上有超過11k的引用，但ACL不再對(duì)這種方法或像FrameNet這樣的語言資源感興趣(以及在LREC上討論的大部分內(nèi)容)。

這些天，評(píng)論家們有時(shí)會(huì)說，由于BERT工作得很好，諸如framet和WordNet這樣的資源已經(jīng)不再有意義了。這種言論阻礙了多樣性。那些在資源上投入的人可能會(huì)覺得這樣的言論是無禮的(和不道德的)。

甚至機(jī)器學(xué)習(xí)領(lǐng)域的人也對(duì)SOTA追逐有所保留。

Rahimi在NIPS-2017上發(fā)表了題為“機(jī)器學(xué)習(xí)已成為煉金術(shù)”的關(guān)于時(shí)間測(cè)試的演講。NIPS(現(xiàn)在被稱為NeurIPS)過去更容易接受嚴(yán)格的理論論證。顯然，對(duì)SOTA的追逐排擠了許多重要的話題，包括理論和計(jì)算語言學(xué)。

在其他領(lǐng)域，如詞典學(xué)、圖書館學(xué)和信息檢索，則有另一種嚴(yán)格的要求，在這些領(lǐng)域，正確的歸因是非常嚴(yán)肅的。這些領(lǐng)域的人非常關(guān)心抽樣(平衡)，什么來自哪里，什么代表什么。當(dāng)追逐SOTA過于迅速而不那么嚴(yán)格時(shí)，他們會(huì)感到不受歡迎。

考慮HuggingFace中對(duì)TREC的引用，以及MRQA的表1。到目前為止，已經(jīng)召開了30場(chǎng)文本檢索會(huì)議。對(duì)于這30個(gè)會(huì)議中的每一個(gè)，都有許多軌道和許多數(shù)據(jù)集，有許多人貢獻(xiàn)了許多。我們向熟悉TREC的人尋求幫助，以消除在HuggingFace和MRQA中提到TREC的歧義。

重要的是，特別是在某些領(lǐng)域，在該表?yè)P(yáng)的地方給予表?yè)P(yáng)。引用具有恰當(dāng)屬性的工作將使我們的領(lǐng)域更具包容性，更能吸引其他領(lǐng)域有著不同優(yōu)先順序和不同觀點(diǎn)的人。適當(dāng)?shù)囊靡矔?huì)促進(jìn)復(fù)現(xiàn)。

三、不切實(shí)際的期望：超人般的表現(xiàn)，真的嗎?

我們現(xiàn)在討論SOTA追求的三種成本中的第三種。

聲稱超人的表現(xiàn)(在任務(wù)上比實(shí)際情況更真實(shí))會(huì)產(chǎn)生不切實(shí)際的期望，可能導(dǎo)致人工智能的冬天。

構(gòu)造CAPTCHAs(完全自動(dòng)化公共圖靈測(cè)試來區(qū)分計(jì)算機(jī)和人類)以及反向驗(yàn)證并不難，我們稱之為反向驗(yàn)證。對(duì)于標(biāo)準(zhǔn)驗(yàn)證碼，你可以賭人成功，賭機(jī)器失敗，而對(duì)于反向驗(yàn)證碼，你可以賭機(jī)器成功，賭人失敗。

技術(shù)往往是驚人的，盡管有時(shí)令人疲憊、尷尬、不道德和/或危險(xiǎn)。在新聞和社交媒體上很容易找到有趣/可怕的“計(jì)算機(jī)錯(cuò)誤”的例子。Alexa最近告訴一個(gè)10歲的女孩用一便士和電做一些危險(xiǎn)的事情。Gmail autocorrect最近發(fā)了一封尷尬的郵件，郵件中說他想和一位商業(yè)伙伴交談，結(jié)果卻莫名其妙地變成了想和這位商業(yè)伙伴睡覺。

計(jì)算機(jī)被用于各種各樣的用例，這引發(fā)了一些嚴(yán)重的道德問題。在一個(gè)案件中，法官裁定谷歌翻譯不夠好，不足以算作同意警方搜查。社會(huì)將需要解決更多這樣的道德問題。

如果機(jī)器在轉(zhuǎn)錄語音和機(jī)器翻譯方面真的比人更好，那為什么YouTube和Zoom等服務(wù)的字幕中會(huì)出現(xiàn)這么多“計(jì)算機(jī)錯(cuò)誤”?總是有更多的工作要做。有一些任務(wù)，比如下棋，電腦比人做得好得多。但是，對(duì)于商業(yè)應(yīng)用程序來說，有許多任務(wù)是重要的，比如標(biāo)題，在這些任務(wù)中有改進(jìn)的機(jī)會(huì)。

在WMT(機(jī)器翻譯研討會(huì))和其他學(xué)術(shù)會(huì)議上，有人聲稱機(jī)器已經(jīng)取得了比他們所擁有的更多的成就。社區(qū)傾向于記住這個(gè)簡(jiǎn)單的信息，盡管進(jìn)行了重新評(píng)估，并提出如下警告: 這一結(jié)果必須非常謹(jǐn)慎地看待，并考慮到……評(píng)估方法的技術(shù)細(xì)節(jié)以及……重要的是，去年達(dá)到對(duì)等的語言對(duì)在今年的評(píng)估中沒有得到確認(rèn)，類似的情況可能會(huì)重復(fù)出現(xiàn)。

復(fù)制是許多領(lǐng)域的一個(gè)主要問題。復(fù)制危機(jī)的根源之一是對(duì)科學(xué)方法的過度自信。評(píng)估也可能具有誤導(dǎo)性，因?yàn)閷?duì)方法和指標(biāo)(如BLEU)過于自信。社區(qū)更有可能記住超人的結(jié)果，而不是警告警告/重新評(píng)估。

例如，考慮用技術(shù)翻譯會(huì)議。

這項(xiàng)技術(shù)非常好，但與人類相比還差得遠(yuǎn)。第一作者對(duì)這項(xiàng)技術(shù)有相當(dāng)多的經(jīng)驗(yàn)，因?yàn)樗谝患抑袊?guó)公司工作，不會(huì)說中文。當(dāng)他有了人工翻譯時(shí)，他會(huì)更投入地參加會(huì)議(而且不會(huì)那么疲憊地努力自行翻譯)。

當(dāng)這項(xiàng)技術(shù)第一次被引入時(shí)，每個(gè)人都對(duì)它的工作效果印象深刻?，F(xiàn)場(chǎng)直播被展示在舞臺(tái)上，這樣房間里的每個(gè)人都可以讀到現(xiàn)場(chǎng)發(fā)言人用中英文實(shí)時(shí)播放的內(nèi)容。在一次備受矚目的會(huì)議上，主席強(qiáng)調(diào)了這項(xiàng)技術(shù)。

現(xiàn)在該技術(shù)已經(jīng)出現(xiàn)了幾年，該技術(shù)不再展示在舞臺(tái)上（也許是因?yàn)橐恍┎豢杀苊獾膶擂五e(cuò)誤）。最新版本在手機(jī)上運(yùn)行，所以只有我們這些需要技術(shù)的人才能看到（和聽到）英文和中文的所有內(nèi)容（疣和所有）。該技術(shù)甚至比以前更好，尤其是在延遲方面，但即便如此，它仍遠(yuǎn)未達(dá)到人類水平。

其他不像我們那樣頻繁使用該技術(shù)的人可能會(huì)被報(bào)告超人 BLEU 分?jǐn)?shù)和延遲的評(píng)估誤導(dǎo)。雖然在這些方面機(jī)器可能比人更好，但 BLEU 和延遲并不是重要的術(shù)語。專業(yè)口譯員在需要說的時(shí)候翻譯需要說的話，人工口譯員不會(huì)犯“計(jì)算機(jī)錯(cuò)誤”。

當(dāng)評(píng)估產(chǎn)生的數(shù)字好得令人難以置信（使用不適當(dāng)?shù)闹笜?biāo)，例如 BLEU 和平均延遲），我們?yōu)槭裁匆绱苏J(rèn)真地對(duì)待這些數(shù)字？

我們對(duì)評(píng)估方法充滿信心，以至于我們相信結(jié)果（并掩蓋警告/重新評(píng)估），即使知道結(jié)果不可能正確：第一原則是你不能欺騙自己，另外要注意你是最容易被欺騙的人。

許多評(píng)估報(bào)告稱，機(jī)器在許多任務(wù)上都比人好。

我們都知道這些超人的數(shù)字好得令人難以置信，而且不太可能超越學(xué)術(shù)基準(zhǔn)，轉(zhuǎn)移到對(duì)商業(yè)實(shí)踐很重要的任務(wù)。沒有人會(huì)記住警告/重新評(píng)估，但他們會(huì)記住不切實(shí)際的期望，這對(duì)該領(lǐng)域的長(zhǎng)期健康不利。

從這個(gè)角度來看，深度網(wǎng)絡(luò)在這么多基準(zhǔn)上的成功可以解釋為對(duì)這些基準(zhǔn)的批評(píng)?；鶞?zhǔn)測(cè)試往往過于關(guān)注那些對(duì)我們已有的技術(shù)來說非常理想的任務(wù)。但基準(zhǔn)應(yīng)該更加強(qiáng)調(diào)改進(jìn)的機(jī)會(huì)?；鶞?zhǔn)應(yīng)該不同于公關(guān)炒作。基準(zhǔn)測(cè)試的目的不是讓我們的技術(shù)看起來更好（或更好），而是幫助設(shè)定未來工作的議程。評(píng)估提供了對(duì)進(jìn)展的可靠衡量，以及對(duì)未來的現(xiàn)實(shí)期望。

我們不反對(duì)評(píng)估和衡量實(shí)際進(jìn)展，但反對(duì)那些比進(jìn)步更多的是噪音、希望或者炒作的“收獲”。排行榜前兩個(gè)位置之間的性能差異（例如，正確率、F1等性能指標(biāo)）可能并不統(tǒng)計(jì)意義上顯著、可重復(fù)或者引人注目。

四、追逐SOTA的根本原因

下面兩節(jié)將討論人們追求SOTA的兩個(gè)可能的根本原因：

1.缺乏領(lǐng)導(dǎo)力和長(zhǎng)期戰(zhàn)略規(guī)劃：歷史上，議程是由學(xué)術(shù)界、工業(yè)界和政府中相對(duì)少數(shù)有影響力的領(lǐng)導(dǎo)人自上而下確定的，但如今，議程更多地是自下而上地通過社交媒體和網(wǎng)站，例如帶papers with code和 Hugging Face 的頻繁下載模型和數(shù)據(jù)集列表。由于這些變化，重點(diǎn)變得更加短期和事務(wù)性。

2.由于程序不完善和糾正這些程序錯(cuò)誤的無效過程，導(dǎo)致審稿人分配不力，進(jìn)而導(dǎo)致評(píng)審不力。

追求SOTA可能是從歷史悠久的評(píng)估傳統(tǒng)演變而來的。Raji等人首先總結(jié)一下這段歷史。從歷史上看，強(qiáng)調(diào)評(píng)估是有道理的。評(píng)估過去不僅僅是毫無意義地追求SOTA。ACL-2021 基準(zhǔn)測(cè)試研討會(huì)上介紹了許多關(guān)于這段歷史的第一手資料：過去、現(xiàn)在和未來。視頻和幻燈片發(fā)布在 github 上。

這段歷史的大部分內(nèi)容都涉及約翰·馬希、弗雷德·杰利內(nèi)克和查爾斯·韋恩等有影響力的領(lǐng)導(dǎo)人。在 Mashey、Jelinek 和 Wayne 之前，議程主要是由許多其他有影響力的領(lǐng)導(dǎo)人制定的：Pierce、Skinner、Shannon、Licklider、Minsky、Chomsky 等。如今，人們可能會(huì)爭(zhēng)辯說，該議程是由 Hinton、Bengio、LeCun、Pearl 等圖靈獎(jiǎng)得主自上而下提出的。

例如，Bengio 正在研究人工智能中一些長(zhǎng)期存在的難題，例如因果性和組合性。盡管進(jìn)行了自上而下的努力，但我們認(rèn)為追求SOTA的動(dòng)力實(shí)際上來源于社區(qū)的驅(qū)動(dòng)（例如papers with code和Hugging Face），更多是自下而上地出現(xiàn)。

本文將表明，追求SOTA是缺乏自上而下領(lǐng)導(dǎo)的結(jié)果。

學(xué)生需要幫助來尋找要從事的項(xiàng)目。成功是通過交易來衡量的。怎樣才能讓一篇論文在下一次會(huì)議上被接受？發(fā)表或者消失，除非我們提供更有希望的替代方案，否則學(xué)生們很可能會(huì)求助于 PWC，以找到一個(gè)可能在下一輪會(huì)議評(píng)審中“成功”的項(xiàng)目。對(duì)于擁有更多經(jīng)驗(yàn)和對(duì)該領(lǐng)域長(zhǎng)期健康承擔(dān)更多責(zé)任的更成熟的研究人員來說，長(zhǎng)期成功更受關(guān)注。

成熟的研究人員，例如教科書的作者，過去常常在制定議程方面發(fā)揮更多作用。在過去，教科書和 ACL 會(huì)議之間的聯(lián)系比現(xiàn)在更加緊密。

如今，議程更多地通過鼠標(biāo)點(diǎn)擊自下而上地確定。每個(gè)人都有平等的投票權(quán)。教科書作者的投票權(quán)不比剛起步的學(xué)生多。因此，短期關(guān)注往往會(huì)主導(dǎo)長(zhǎng)期關(guān)注，因?yàn)閯偲鸩降膶W(xué)生的投票范圍遠(yuǎn)大于相對(duì)少數(shù)已建立的研究人員。議程不再由教科書作者和John Mashey、Fred Jelinek和Charles Wayne 等影響者決定。

John Mashey是SPEC的創(chuàng)始人之一，SPEC自1988年以來一直是衡量CPU性能的重要基準(zhǔn)。SPEC對(duì)商業(yè)實(shí)踐的影響力可能比普華永道所有基準(zhǔn)的總和還要大。

Fred Jelinek曾在上世紀(jì)70、80年代擔(dān)任IBM語音和機(jī)器翻譯部門的經(jīng)理，后來他來到約翰·霍普金斯大學(xué)，創(chuàng)建了CLSP(語言和語音處理中心)。

Charles Wayne 在包括 DARPA和 NSA 在內(nèi)的美國(guó)政府資助機(jī)構(gòu)中發(fā)揮了重要作用。

在美國(guó)政府中，項(xiàng)目通常設(shè)計(jì)為運(yùn)行 5 年左右，但不知何故，從 1980 年代中期開始，我們的領(lǐng)域幾乎連續(xù)獲得了 30 年的資助。有人將資助的成功歸功于Wayne 對(duì)評(píng)估的重視。在Wayne之前，有一個(gè)“人工智能冬天”，主要是Pierce 在“語音識(shí)別向何處去？”中對(duì)語音識(shí)別的批評(píng)，以及 Pierce 在 ALPAC 報(bào)告中對(duì)機(jī)器翻譯的批評(píng)。

與以前的人工智能方法相比，Wayne 對(duì)評(píng)估的強(qiáng)調(diào)更具有魅力和欺騙性。這種方法使資金能夠在漫長(zhǎng)的“人工智能寒冬”之后開始并持續(xù)數(shù)十年，因?yàn)橘Y助者可以衡量隨著時(shí)間的推移而取得的進(jìn)展。然而，至關(guān)重要的是，與我們今天制定的許多基準(zhǔn)不同，Wayne 領(lǐng)導(dǎo)下的基準(zhǔn)很大程度上是由自上而下的戰(zhàn)略規(guī)劃驅(qū)動(dòng)的，具有明確的長(zhǎng)期目標(biāo)。

Wayne 鼓勵(lì)跨學(xué)科合作。他通過接觸自然語言處理 (NLP)、信息檢索 (IR) 和語音創(chuàng)建了一系列 HLT（人類語言技術(shù)）會(huì)議。Wayne 在 TREC（文本檢索會(huì)議）的創(chuàng)建中也發(fā)揮了重要作用。TREC 與美國(guó)商務(wù)部下屬的 NIST（美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院）密切相關(guān)。

我們的領(lǐng)域在其中一些目標(biāo)上取得了相當(dāng)大的進(jìn)展，但仍有許多工作要做。

雖然很容易將當(dāng)前的 SOTA 追逐熱潮歸咎于這段歷史中提到的許多領(lǐng)導(dǎo)人，但這是不公平的。如上所述，追逐 SOTA 涉及毫無意義的數(shù)字，沒有多少長(zhǎng)期戰(zhàn)略價(jià)值，而這段歷史上的領(lǐng)導(dǎo)者對(duì)該領(lǐng)域做出了重要的長(zhǎng)期貢獻(xiàn)，主要是因?yàn)樗麄內(nèi)绱酥匾曢L(zhǎng)期戰(zhàn)略規(guī)劃。

除了缺乏領(lǐng)導(dǎo)力之外，追求 SOTA 的另一個(gè)根本原因是審查流程不善。

Rogers的博客將 SOTA 追逐歸因于懶惰/糟糕的審查、信息超載（淹沒在論文中）和對(duì)基準(zhǔn)測(cè)試的過譽(yù)，盡管在她的個(gè)人博客中對(duì)糟糕審查的討論多于對(duì)基準(zhǔn)的贊譽(yù)。

遺憾的是，EMNLP 審查是如此地糟糕。EMNLP的缺陷尤其具有諷刺意味，因?yàn)槲覀儎?chuàng)建 EMNLP 主要是為了彌補(bǔ)ACL的缺陷。

過去，EMNLP 審查通過構(gòu)建比AC更快。如今，EMNLP 審查并沒有更快（也沒有更好），因?yàn)樗?ACL會(huì)議都使用相同的流程。將我們所有的雞蛋放在一個(gè)籃子里并不是解決辦法，尤其是在已知籃子有缺陷的情況下。

最近有很多評(píng)論批評(píng)。Rogers的博客為審稿人提供了許多建設(shè)性的建議。雖然我們同意審查是不好的，甚至比以前更糟糕，但責(zé)備審查者不太可能導(dǎo)致改進(jìn)。審稿人做審稿人所做的事情。創(chuàng)建更多教程、規(guī)則和流程不太可能有幫助。

人們普遍認(rèn)為 ACL 審查是一個(gè)改進(jìn)的機(jī)會(huì)。ACL 最近推出了基于公開審查的新滾動(dòng)審查流程 (ARR)。也許 ARR 會(huì)改善問題，盡管我們對(duì)此表示嚴(yán)重懷疑。

最佳實(shí)踐往往從確定根本原因開始。為了改變而引入改變不太可能帶來改進(jìn)。更好的做法是，逐步推出新流程，不要同時(shí)進(jìn)行太多更改。

有一點(diǎn)是肯定的，如表 2 所示，ACL-2022 并不比 ACL-2021 快。ARR 的最初目標(biāo)是在 35 天內(nèi)完成所有評(píng)論和元評(píng)論。該過程要求每篇論文有 3 篇評(píng)論，一旦完成，則需要一篇元評(píng)論。這是一個(gè)非常緊迫的轉(zhuǎn)變。

相比之下，在 ACL 2021 中，從提交到通知的時(shí)間為 92 天，幾乎是 ARR 目標(biāo)的3倍。但是 ACL-2022 使用了 ARR 而 ACL-2021 沒有。如果 ARR 真的快了3倍，為什么表2的時(shí)間表中沒有出現(xiàn)這種加速？

圖2. ACL-2022并沒有比ACL-2021快

速度很重要，但質(zhì)量更重要。為什么審核這么差？正如羅杰斯在她的博客中指出的那樣，審稿人很累而且報(bào)酬過低。但這也適用于研究人員。

我們大多數(shù)人做所做的事情是因?yàn)槲覀兎浅ｊP(guān)心所做的事情。研究人員也很累且報(bào)酬過低，但這不是差評(píng)的根本原因。更可能的根本原因是將論文分配給的審稿人。ARR 有許多嚴(yán)重的設(shè)計(jì)缺陷，使得審稿人很可能會(huì)比以前更不合格。以前很少有學(xué)生被邀請(qǐng)審稿。審稿人通常是被引論文的作者，這增加了審稿人熟悉相關(guān)背景材料的幾率，并積極傾向于一般方法。

過去，審稿人在該主題方面的專業(yè)知識(shí)比論文的目標(biāo)讀者多。不幸的是，現(xiàn)在情況已不再如此。

追求SOTA是這些新（但未改進(jìn)）流程的自然結(jié)果。由于作者不能假設(shè)審稿人是合格的或?qū)υ擃I(lǐng)域有同理心，作者需要提出一個(gè)簡(jiǎn)單的論點(diǎn)，以便與沒有動(dòng)力的審稿人一起工作。根據(jù)經(jīng)驗(yàn)，作者發(fā)現(xiàn)強(qiáng)調(diào)SOTA對(duì)于隨機(jī)審稿人是有效的。

我們不能責(zé)怪作者所做的事情，也不能責(zé)怪審稿人所做的事情。我們已經(jīng)看到了問題，而且是我們自己造成的。

總結(jié)

以上是生活随笔為你收集整理的审视AI界的“SOTA成瘾”丨AI学者万字论述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： task3- python与word
下一篇： AIGC基础：从VAE到DDPM原理、代

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片