日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

审视AI界的“SOTA成瘾”丨AI学者万字论述

發(fā)布時(shí)間:2024/1/8 ChatGpt 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 审视AI界的“SOTA成瘾”丨AI学者万字论述 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SOTA,State Of The Art,是一個(gè)AI界家喻戶曉的說法。

這個(gè)詞意味著某個(gè)模型在某些具體任務(wù)中達(dá)到了“目前最佳水平”。許多AI研究都在追逐最先進(jìn)的 (SOTA) 數(shù)字,而且有理由相信,未來還會(huì)有更多的論文以此為出發(fā)點(diǎn)。

這個(gè)領(lǐng)域的大部分從業(yè)者對(duì)這種風(fēng)潮已習(xí)以為常,但在AI學(xué)者Kenneth Ward Church看來,對(duì)SOTA的一味推崇并不全是“獎(jiǎng)賞”,也是有相應(yīng)代價(jià)的。

在他與Valia Kordoni合著的文章Emerging Trends: SOTA-Chasing中,他們?cè)敿?xì)地闡述了追逐SOTA可能造成的三種負(fù)面效應(yīng):

1.排行榜強(qiáng)調(diào)競(jìng)爭,這分散了人們對(duì)該領(lǐng)域更重要機(jī)遇的注意力;
2.對(duì)SOTA的追逐阻礙了語言學(xué)、詞典編纂、心理學(xué)等領(lǐng)域的研究人員進(jìn)行跨學(xué)科合作;
3.一些聲稱SOTA的成果可能會(huì)讓業(yè)界產(chǎn)生不切實(shí)際的期望,這可能會(huì)導(dǎo)致又一個(gè)人工智能的寒冬。

“數(shù)據(jù)實(shí)戰(zhàn)派”將其中的重點(diǎn)論述部分整理如下:

一、激勵(lì)和合作:排行榜的“雙面效應(yīng)”

你追求的度量是什么,那么你得到的就會(huì)是什么,這是老生常談了。

排行榜強(qiáng)調(diào)的是贏家和輸家。如果你用谷歌搜索"meme: mine is bigger than yours",你會(huì)發(fā)現(xiàn)一堆粗魯?shù)摹⒂字傻摹⑸踔潦俏kU(xiǎn)的圖片。

TREC(文本檢索會(huì)議)強(qiáng)調(diào)合作競(jìng)爭,而不只是競(jìng)爭。Voorhees在SIGIR-2020的主題演講中,以及在ACL-2021 benchmarking研討會(huì)上的受邀演講中指出:

l 競(jìng)爭可能會(huì)給你更大的蛋糕……
l ……然而合作會(huì)讓整個(gè)蛋糕變大

TREC參與者被要求簽署一份協(xié)議,明令禁止宣傳TREC的結(jié)果。這項(xiàng)禁令在TREC成立25周年的錄像中被多次提及。盡管參與者們很欣賞這一原則,但吹噓的誘惑卻難以抗拒。

Voorhees提出了一個(gè)重要的觀點(diǎn)。TREC深度學(xué)習(xí)方面的概述論文,例如(Craswell et al. 2020),其中的方法分為三種類型:nnlm(神經(jīng)網(wǎng)絡(luò)語言模型,如BERT)、nn(其他類型的神經(jīng)網(wǎng)絡(luò))和trad(傳統(tǒng)方法)。圖1顯示了nnlm的性能最好,而trad的性能最差。通過這種方式,合作競(jìng)爭產(chǎn)生了重要的洞察力,能夠以有意義的方式推動(dòng)領(lǐng)域的發(fā)展,這與強(qiáng)調(diào)競(jìng)爭的排行榜不同,而更像是我的排行榜比你的排行榜更重要。


圖1. ACL-2021的默認(rèn)概念

作為合作競(jìng)爭和競(jìng)爭的第二個(gè)例子,考慮MRQA (Machine Reading for Question answer)。對(duì)論文的呼吁強(qiáng)調(diào)了許多令人欽佩的目標(biāo),如域轉(zhuǎn)移、可解釋性、健壯性和錯(cuò)誤分析,但不幸的是,公開任務(wù)以排行榜為導(dǎo)向,并祝賀獲獎(jiǎng)?wù)?#xff0c;而沒有提到更令人欽佩的目標(biāo)。

有了稍微不同的設(shè)計(jì),公開任務(wù)可以為域轉(zhuǎn)移提供一些有趣的見解。表1列出了18個(gè)QA基準(zhǔn)測(cè)試,分成三組6個(gè)基準(zhǔn)測(cè)試。這三個(gè)組分別用于訓(xùn)練、驗(yàn)證和測(cè)試。假設(shè)我們沒有使用這組火車/驗(yàn)證/測(cè)試分割,我們使用了許多不同的分割。我們能發(fā)現(xiàn),一些分割比另一些更好嗎?

表1. ACL-2021的主題

MRQA 確定了 18 個(gè)基準(zhǔn)測(cè)試之間的一些有趣的相似點(diǎn)和不同點(diǎn):

l 文本來源:Wikipedia/網(wǎng)絡(luò)片段/其他
l Wikipedia (7個(gè)基準(zhǔn)測(cè)試): DROP, HotpotQA, QAMR, RelationExtraction, SQuAD, TREC, Natural Questions
l 網(wǎng)絡(luò)片段(3個(gè)基準(zhǔn)測(cè)試): TriviaQA, SearchQA, ComplexWebQ
l 其他 (8個(gè)基準(zhǔn)測(cè)試): MCTest, RACE, DuoRC, NewsQA, BioASQ, QAST, BioProcess, TextbookQA
l 問題的來源:眾包/領(lǐng)域?qū)<?其他
l 眾包(9個(gè)基準(zhǔn)測(cè)試):ComplexWebQ, DROP, DuoRC, HotpotQA, MCTest, NewsQA, QAMR, SQuAD, TREC
l 領(lǐng)域?qū)<?#xff08;5個(gè)基準(zhǔn)測(cè)試):BioASQ, BioProcess, QAST, RACE, TextbookQA
l 其他(4個(gè)基準(zhǔn)測(cè)試):SearchQA, Questions Natural, RelationExtraction, TriviaQA
l 答案的來源:基于文檔/不基于文檔
l 基于文檔(9個(gè)基準(zhǔn)測(cè)試):SQuAD HotpotQA, DROP, RACE, TextbookQA, BioProcess, MCTest, QAMR, QAST
l 不基于文檔(9個(gè)基準(zhǔn)測(cè)試):NewsQA TriviaQA, SearchQA, Natural Questions, BioASQ, DuoRC, RelationExtraction, ComplexWebQ, TREC

知道這些模式是否對(duì)遷移來說是重要的,這個(gè)問題十分有趣。例如,有相當(dāng)明確的證據(jù)表明,構(gòu)建(眾包)問題比查詢?nèi)罩局械膯栴}更容易。

例如,TREC QA 于 1999 年從“構(gòu)建”問題開始,但由于構(gòu)建問題對(duì)于系統(tǒng)而言太容易且不切實(shí)際,因此很快從查詢?nèi)罩局械暮罄m(xù) TREC QA 方向(2000-2007)轉(zhuǎn)向“真實(shí)”問題。基于這些觀察,在問題、文檔和/或答案的來源方面彼此相似的基準(zhǔn)之間遷移也可能更有效。通過這種方式,合作競(jìng)爭可以產(chǎn)生重要的見解,以比排行榜和競(jìng)爭更有意義的方式推動(dòng)該領(lǐng)域的發(fā)展。

當(dāng)基準(zhǔn)是現(xiàn)實(shí)的時(shí),它還有助于推進(jìn)該領(lǐng)域。MRQA 中的大多數(shù)基準(zhǔn)測(cè)試都基于學(xué)術(shù)界的基準(zhǔn)測(cè)試,自然問題除外。為了構(gòu)建更現(xiàn)實(shí)的基準(zhǔn),建議與行業(yè)合作并確保基準(zhǔn)代表他們關(guān)心的實(shí)際問題。多家公司參與了多項(xiàng)基準(zhǔn)測(cè)試。

TREC QA (1999–2007) 和 IBM Watson之間也有聯(lián)系。在這種情況下,IBM 于 2006 年開始使用為 TREC QA設(shè)計(jì)的系統(tǒng),發(fā)現(xiàn)該系統(tǒng)無法很好地解決Jeopardy問題,正如在 TREC 25 周年慶典上所討論的那樣。

經(jīng)過 5 年的努力,IBM 系統(tǒng)在 2011 年擊敗了兩個(gè)最好的人類 Jeopardy 玩家,但他們 2011 年的系統(tǒng)可能與 2006 年的系統(tǒng)有很大不同,因?yàn)槌渌?#xff0c;TREC QA 任務(wù)并不能很好地代表 Jeopardy 任務(wù)。Jeopardy 任務(wù)是IBM市場(chǎng)營銷的一個(gè)重要問題,盡管網(wǎng)絡(luò)搜索等問題可能比 Jeopardy 更真實(shí)。

不幸的是,雖然我們都知道IBM贏了,但人們對(duì)它是如何實(shí)現(xiàn)的,以及這一成就如何推動(dòng)該領(lǐng)域朝著更令人欽佩的目標(biāo)前進(jìn)的卻少之又少。我們應(yīng)該聽從Voorhees的建議,以競(jìng)合取代競(jìng)爭。關(guān)鍵不在于誰獲勝,而在于推動(dòng)該領(lǐng)域發(fā)展的洞察力。

二、吸走房間里的氧氣

過度追逐SOTA的結(jié)果是什么?

其中一個(gè)結(jié)果便是,在一個(gè)關(guān)于計(jì)算語言學(xué)的會(huì)議上發(fā)表計(jì)算語言學(xué)論文越來越難了。

那些準(zhǔn)備發(fā)表人生第一篇ACL論文的學(xué)生們可能會(huì)翻開機(jī)器學(xué)習(xí)的教科書,而不是計(jì)算語言學(xué)的教科書。

ACL會(huì)議過去更具包容性。

我們?cè)?jīng)在會(huì)議上看到更多來自不同領(lǐng)域的人,比如語言學(xué)、哲學(xué)、詞典編纂、心理學(xué)等。ACL的領(lǐng)域曾經(jīng)延伸到HLT(人類語言技術(shù)),結(jié)合了計(jì)算語言學(xué)、語音和信息檢索/網(wǎng)絡(luò)搜索。很多人曾經(jīng)在更多的領(lǐng)域/場(chǎng)所發(fā)表文章:計(jì)算語言學(xué)(ACL, EMNLP, NAACL, EACL, Coling),機(jī)器學(xué)習(xí)(NeurIPS),語音(ICASSP, Interspeech),信息檢索(SIGIR,TREC),網(wǎng)絡(luò)搜索(WWW, WSDM),數(shù)據(jù)挖掘(KDD),語言資源(LREC),等等。

為什么我們?cè)贏CL見不到這些人了?

當(dāng)我們參加了一個(gè)為查克·菲爾莫爾舉辦的ACL-2014研討會(huì)時(shí),我們清楚地發(fā)現(xiàn)他們中的許多人不再受歡迎了。研討會(huì)的氣氛真是酸甜苦百般滋味。他們很感激查克獲得了終身成就獎(jiǎng),但是他們也在哀悼他的去世,他們擔(dān)心他們的工作與ACL的走向有關(guān)。

菲爾莫爾的“Case for Case”在谷歌Scholar上有超過11k的引用,但ACL不再對(duì)這種方法或像FrameNet這樣的語言資源感興趣(以及在LREC上討論的大部分內(nèi)容)。

這些天,評(píng)論家們有時(shí)會(huì)說,由于BERT工作得很好,諸如framet和WordNet這樣的資源已經(jīng)不再有意義了。這種言論阻礙了多樣性。那些在資源上投入的人可能會(huì)覺得這樣的言論是無禮的(和不道德的)。

甚至機(jī)器學(xué)習(xí)領(lǐng)域的人也對(duì)SOTA追逐有所保留。

Rahimi在NIPS-2017上發(fā)表了題為“機(jī)器學(xué)習(xí)已成為煉金術(shù)”的關(guān)于時(shí)間測(cè)試的演講。NIPS(現(xiàn)在被稱為NeurIPS)過去更容易接受嚴(yán)格的理論論證。顯然,對(duì)SOTA的追逐排擠了許多重要的話題,包括理論和計(jì)算語言學(xué)。

在其他領(lǐng)域,如詞典學(xué)、圖書館學(xué)和信息檢索,則有另一種嚴(yán)格的要求,在這些領(lǐng)域,正確的歸因是非常嚴(yán)肅的。這些領(lǐng)域的人非常關(guān)心抽樣(平衡),什么來自哪里,什么代表什么。當(dāng)追逐SOTA過于迅速而不那么嚴(yán)格時(shí),他們會(huì)感到不受歡迎。

考慮HuggingFace中對(duì)TREC的引用,以及MRQA的表1。到目前為止,已經(jīng)召開了30場(chǎng)文本檢索會(huì)議。對(duì)于這30個(gè)會(huì)議中的每一個(gè),都有許多軌道和許多數(shù)據(jù)集,有許多人貢獻(xiàn)了許多。我們向熟悉TREC的人尋求幫助,以消除在HuggingFace和MRQA中提到TREC的歧義。

重要的是,特別是在某些領(lǐng)域,在該表揚(yáng)的地方給予表揚(yáng)。引用具有恰當(dāng)屬性的工作將使我們的領(lǐng)域更具包容性,更能吸引其他領(lǐng)域有著不同優(yōu)先順序和不同觀點(diǎn)的人。適當(dāng)?shù)囊靡矔?huì)促進(jìn)復(fù)現(xiàn)。

三、不切實(shí)際的期望:超人般的表現(xiàn),真的嗎?

我們現(xiàn)在討論SOTA追求的三種成本中的第三種。

聲稱超人的表現(xiàn)(在任務(wù)上比實(shí)際情況更真實(shí))會(huì)產(chǎn)生不切實(shí)際的期望,可能導(dǎo)致人工智能的冬天。

構(gòu)造CAPTCHAs(完全自動(dòng)化公共圖靈測(cè)試來區(qū)分計(jì)算機(jī)和人類)以及反向驗(yàn)證并不難,我們稱之為反向驗(yàn)證。對(duì)于標(biāo)準(zhǔn)驗(yàn)證碼,你可以賭人成功,賭機(jī)器失敗,而對(duì)于反向驗(yàn)證碼,你可以賭機(jī)器成功,賭人失敗。

技術(shù)往往是驚人的,盡管有時(shí)令人疲憊、尷尬、不道德和/或危險(xiǎn)。在新聞和社交媒體上很容易找到有趣/可怕的“計(jì)算機(jī)錯(cuò)誤”的例子。Alexa最近告訴一個(gè)10歲的女孩用一便士和電做一些危險(xiǎn)的事情。Gmail autocorrect最近發(fā)了一封尷尬的郵件,郵件中說他想和一位商業(yè)伙伴交談,結(jié)果卻莫名其妙地變成了想和這位商業(yè)伙伴睡覺。

計(jì)算機(jī)被用于各種各樣的用例,這引發(fā)了一些嚴(yán)重的道德問題。在一個(gè)案件中,法官裁定谷歌翻譯不夠好,不足以算作同意警方搜查。社會(huì)將需要解決更多這樣的道德問題。

如果機(jī)器在轉(zhuǎn)錄語音和機(jī)器翻譯方面真的比人更好,那為什么YouTube和Zoom等服務(wù)的字幕中會(huì)出現(xiàn)這么多“計(jì)算機(jī)錯(cuò)誤”?總是有更多的工作要做。有一些任務(wù),比如下棋,電腦比人做得好得多。但是,對(duì)于商業(yè)應(yīng)用程序來說,有許多任務(wù)是重要的,比如標(biāo)題,在這些任務(wù)中有改進(jìn)的機(jī)會(huì)。

在WMT(機(jī)器翻譯研討會(huì))和其他學(xué)術(shù)會(huì)議上,有人聲稱機(jī)器已經(jīng)取得了比他們所擁有的更多的成就。社區(qū)傾向于記住這個(gè)簡單的信息,盡管進(jìn)行了重新評(píng)估,并提出如下警告: 這一結(jié)果必須非常謹(jǐn)慎地看待,并考慮到……評(píng)估方法的技術(shù)細(xì)節(jié)以及……重要的是,去年達(dá)到對(duì)等的語言對(duì)在今年的評(píng)估中沒有得到確認(rèn),類似的情況可能會(huì)重復(fù)出現(xiàn)。

復(fù)制是許多領(lǐng)域的一個(gè)主要問題。復(fù)制危機(jī)的根源之一是對(duì)科學(xué)方法的過度自信。評(píng)估也可能具有誤導(dǎo)性,因?yàn)閷?duì)方法和指標(biāo)(如BLEU)過于自信。社區(qū)更有可能記住超人的結(jié)果,而不是警告警告/重新評(píng)估。

例如,考慮用技術(shù)翻譯會(huì)議。

這項(xiàng)技術(shù)非常好,但與人類相比還差得遠(yuǎn)。第一作者對(duì)這項(xiàng)技術(shù)有相當(dāng)多的經(jīng)驗(yàn),因?yàn)樗谝患抑袊竟ぷ?#xff0c;不會(huì)說中文。當(dāng)他有了人工翻譯時(shí),他會(huì)更投入地參加會(huì)議(而且不會(huì)那么疲憊地努力自行翻譯)。

當(dāng)這項(xiàng)技術(shù)第一次被引入時(shí),每個(gè)人都對(duì)它的工作效果印象深刻。現(xiàn)場(chǎng)直播被展示在舞臺(tái)上,這樣房間里的每個(gè)人都可以讀到現(xiàn)場(chǎng)發(fā)言人用中英文實(shí)時(shí)播放的內(nèi)容。在一次備受矚目的會(huì)議上,主席強(qiáng)調(diào)了這項(xiàng)技術(shù)。

現(xiàn)在該技術(shù)已經(jīng)出現(xiàn)了幾年,該技術(shù)不再展示在舞臺(tái)上(也許是因?yàn)橐恍┎豢杀苊獾膶擂五e(cuò)誤)。最新版本在手機(jī)上運(yùn)行,所以只有我們這些需要技術(shù)的人才能看到(和聽到)英文和中文的所有內(nèi)容(疣和所有)。該技術(shù)甚至比以前更好,尤其是在延遲方面,但即便如此,它仍遠(yuǎn)未達(dá)到人類水平。

其他不像我們那樣頻繁使用該技術(shù)的人可能會(huì)被報(bào)告超人 BLEU 分?jǐn)?shù)和延遲的評(píng)估誤導(dǎo)。雖然在這些方面機(jī)器可能比人更好,但 BLEU 和延遲并不是重要的術(shù)語。專業(yè)口譯員在需要說的時(shí)候翻譯需要說的話,人工口譯員不會(huì)犯“計(jì)算機(jī)錯(cuò)誤”。

當(dāng)評(píng)估產(chǎn)生的數(shù)字好得令人難以置信(使用不適當(dāng)?shù)闹笜?biāo),例如 BLEU 和平均延遲),我們?yōu)槭裁匆绱苏J(rèn)真地對(duì)待這些數(shù)字?

我們對(duì)評(píng)估方法充滿信心,以至于我們相信結(jié)果(并掩蓋警告/重新評(píng)估),即使知道結(jié)果不可能正確:第一原則是你不能欺騙自己,另外要注意你是最容易被欺騙的人。

許多評(píng)估報(bào)告稱,機(jī)器在許多任務(wù)上都比人好。

我們都知道這些超人的數(shù)字好得令人難以置信,而且不太可能超越學(xué)術(shù)基準(zhǔn),轉(zhuǎn)移到對(duì)商業(yè)實(shí)踐很重要的任務(wù)。沒有人會(huì)記住警告/重新評(píng)估,但他們會(huì)記住不切實(shí)際的期望,這對(duì)該領(lǐng)域的長期健康不利。

從這個(gè)角度來看,深度網(wǎng)絡(luò)在這么多基準(zhǔn)上的成功可以解釋為對(duì)這些基準(zhǔn)的批評(píng)。基準(zhǔn)測(cè)試往往過于關(guān)注那些對(duì)我們已有的技術(shù)來說非常理想的任務(wù)。但基準(zhǔn)應(yīng)該更加強(qiáng)調(diào)改進(jìn)的機(jī)會(huì)。基準(zhǔn)應(yīng)該不同于公關(guān)炒作。基準(zhǔn)測(cè)試的目的不是讓我們的技術(shù)看起來更好(或更好),而是幫助設(shè)定未來工作的議程。評(píng)估提供了對(duì)進(jìn)展的可靠衡量,以及對(duì)未來的現(xiàn)實(shí)期望。

我們不反對(duì)評(píng)估和衡量實(shí)際進(jìn)展,但反對(duì)那些比進(jìn)步更多的是噪音、希望或者炒作的“收獲”。排行榜前兩個(gè)位置之間的性能差異(例如,正確率、F1等性能指標(biāo))可能并不統(tǒng)計(jì)意義上顯著、可重復(fù)或者引人注目。

四、追逐SOTA的根本原因

下面兩節(jié)將討論人們追求SOTA的兩個(gè)可能的根本原因:

1.缺乏領(lǐng)導(dǎo)力和長期戰(zhàn)略規(guī)劃:歷史上,議程是由學(xué)術(shù)界、工業(yè)界和政府中相對(duì)少數(shù)有影響力的領(lǐng)導(dǎo)人自上而下確定的,但如今,議程更多地是自下而上地通過 社交媒體和網(wǎng)站,例如帶papers with code和 Hugging Face 的頻繁下載模型和數(shù)據(jù)集列表。由于這些變化,重點(diǎn)變得更加短期和事務(wù)性。

2.由于程序不完善和糾正這些程序錯(cuò)誤的無效過程,導(dǎo)致審稿人分配不力,進(jìn)而導(dǎo)致評(píng)審不力。

追求SOTA可能是從歷史悠久的評(píng)估傳統(tǒng)演變而來的。Raji等人首先總結(jié)一下這段歷史。從歷史上看,強(qiáng)調(diào)評(píng)估是有道理的。評(píng)估過去不僅僅是毫無意義地追求SOTA。ACL-2021 基準(zhǔn)測(cè)試研討會(huì)上介紹了許多關(guān)于這段歷史的第一手資料:過去、現(xiàn)在和未來。視頻和幻燈片發(fā)布在 github 上。

這段歷史的大部分內(nèi)容都涉及約翰·馬希、弗雷德·杰利內(nèi)克和查爾斯·韋恩等有影響力的領(lǐng)導(dǎo)人。在 Mashey、Jelinek 和 Wayne 之前,議程主要是由許多其他有影響力的領(lǐng)導(dǎo)人制定的:Pierce、Skinner、Shannon、Licklider、Minsky、Chomsky 等。如今,人們可能會(huì)爭辯說,該議程是由 Hinton、Bengio、LeCun、Pearl 等圖靈獎(jiǎng)得主自上而下提出的。

例如,Bengio 正在研究人工智能中一些長期存在的難題,例如因果性和組合性。盡管進(jìn)行了自上而下的努力,但我們認(rèn)為追求SOTA的動(dòng)力實(shí)際上來源于社區(qū)的驅(qū)動(dòng)(例如papers with code和Hugging Face),更多是自下而上地出現(xiàn)。

本文將表明,追求SOTA是缺乏自上而下領(lǐng)導(dǎo)的結(jié)果。

學(xué)生需要幫助來尋找要從事的項(xiàng)目。成功是通過交易來衡量的。怎樣才能讓一篇論文在下一次會(huì)議上被接受?發(fā)表或者消失,除非我們提供更有希望的替代方案,否則學(xué)生們很可能會(huì)求助于 PWC,以找到一個(gè)可能在下一輪會(huì)議評(píng)審中“成功”的項(xiàng)目。對(duì)于擁有更多經(jīng)驗(yàn)和對(duì)該領(lǐng)域長期健康承擔(dān)更多責(zé)任的更成熟的研究人員來說,長期成功更受關(guān)注。

成熟的研究人員,例如教科書的作者,過去常常在制定議程方面發(fā)揮更多作用。在過去,教科書和 ACL 會(huì)議之間的聯(lián)系比現(xiàn)在更加緊密。

如今,議程更多地通過鼠標(biāo)點(diǎn)擊自下而上地確定。每個(gè)人都有平等的投票權(quán)。教科書作者的投票權(quán)不比剛起步的學(xué)生多。因此,短期關(guān)注往往會(huì)主導(dǎo)長期關(guān)注,因?yàn)閯偲鸩降膶W(xué)生的投票范圍遠(yuǎn)大于相對(duì)少數(shù)已建立的研究人員。議程不再由教科書作者和John Mashey、Fred Jelinek和Charles Wayne 等影響者決定。

John Mashey是SPEC的創(chuàng)始人之一,SPEC自1988年以來一直是衡量CPU性能的重要基準(zhǔn)。SPEC對(duì)商業(yè)實(shí)踐的影響力可能比普華永道所有基準(zhǔn)的總和還要大。

Fred Jelinek曾在上世紀(jì)70、80年代擔(dān)任IBM語音和機(jī)器翻譯部門的經(jīng)理,后來他來到約翰·霍普金斯大學(xué),創(chuàng)建了CLSP(語言和語音處理中心)。

Charles Wayne 在包括 DARPA和 NSA 在內(nèi)的美國政府資助機(jī)構(gòu)中發(fā)揮了重要作用。

在美國政府中,項(xiàng)目通常設(shè)計(jì)為運(yùn)行 5 年左右,但不知何故,從 1980 年代中期開始,我們的領(lǐng)域幾乎連續(xù)獲得了 30 年的資助。有人將資助的成功歸功于Wayne 對(duì)評(píng)估的重視。在Wayne之前,有一個(gè)“人工智能冬天”,主要是Pierce 在“語音識(shí)別向何處去?”中對(duì)語音識(shí)別的批評(píng),以及 Pierce 在 ALPAC 報(bào)告中對(duì)機(jī)器翻譯的批評(píng)。

與以前的人工智能方法相比,Wayne 對(duì)評(píng)估的強(qiáng)調(diào)更具有魅力和欺騙性。這種方法使資金能夠在漫長的“人工智能寒冬”之后開始并持續(xù)數(shù)十年,因?yàn)橘Y助者可以衡量隨著時(shí)間的推移而取得的進(jìn)展。然而,至關(guān)重要的是,與我們今天制定的許多基準(zhǔn)不同,Wayne 領(lǐng)導(dǎo)下的基準(zhǔn)很大程度上是由自上而下的戰(zhàn)略規(guī)劃驅(qū)動(dòng)的,具有明確的長期目標(biāo)。

Wayne 鼓勵(lì)跨學(xué)科合作。他通過接觸自然語言處理 (NLP)、信息檢索 (IR) 和語音創(chuàng)建了一系列 HLT(人類語言技術(shù))會(huì)議。Wayne 在 TREC(文本檢索會(huì)議)的創(chuàng)建中也發(fā)揮了重要作用。TREC 與美國商務(wù)部下屬的 NIST(美國國家標(biāo)準(zhǔn)與技術(shù)研究院)密切相關(guān)。

我們的領(lǐng)域在其中一些目標(biāo)上取得了相當(dāng)大的進(jìn)展,但仍有許多工作要做。

雖然很容易將當(dāng)前的 SOTA 追逐熱潮歸咎于這段歷史中提到的許多領(lǐng)導(dǎo)人,但這是不公平的。如上所述,追逐 SOTA 涉及毫無意義的數(shù)字,沒有多少長期戰(zhàn)略價(jià)值,而這段歷史上的領(lǐng)導(dǎo)者對(duì)該領(lǐng)域做出了重要的長期貢獻(xiàn),主要是因?yàn)樗麄內(nèi)绱酥匾曢L期戰(zhàn)略規(guī)劃。

除了缺乏領(lǐng)導(dǎo)力之外,追求 SOTA 的另一個(gè)根本原因是審查流程不善。

Rogers的博客將 SOTA 追逐歸因于懶惰/糟糕的審查、信息超載(淹沒在論文中)和對(duì)基準(zhǔn)測(cè)試的過譽(yù),盡管在她的個(gè)人博客中對(duì)糟糕審查的討論多于對(duì)基準(zhǔn)的贊譽(yù)。

遺憾的是,EMNLP 審查是如此地糟糕。EMNLP的缺陷尤其具有諷刺意味,因?yàn)槲覀儎?chuàng)建 EMNLP 主要是為了彌補(bǔ)ACL的缺陷。

過去,EMNLP 審查通過構(gòu)建比AC更快。如今,EMNLP 審查并沒有更快(也沒有更好),因?yàn)樗?ACL會(huì)議都使用相同的流程。將我們所有的雞蛋放在一個(gè)籃子里并不是解決辦法,尤其是在已知籃子有缺陷的情況下。

最近有很多評(píng)論批評(píng)。Rogers的博客為審稿人提供了許多建設(shè)性的建議。雖然我們同意審查是不好的,甚至比以前更糟糕,但責(zé)備審查者不太可能導(dǎo)致改進(jìn)。審稿人做審稿人所做的事情。創(chuàng)建更多教程、規(guī)則和流程不太可能有幫助。

人們普遍認(rèn)為 ACL 審查是一個(gè)改進(jìn)的機(jī)會(huì)。ACL 最近推出了基于公開審查的新滾動(dòng)審查流程 (ARR)。也許 ARR 會(huì)改善問題,盡管我們對(duì)此表示嚴(yán)重懷疑。

最佳實(shí)踐往往從確定根本原因開始。為了改變而引入改變不太可能帶來改進(jìn)。更好的做法是,逐步推出新流程,不要同時(shí)進(jìn)行太多更改。

有一點(diǎn)是肯定的,如表 2 所示,ACL-2022 并不比 ACL-2021 快。ARR 的最初目標(biāo)是在 35 天內(nèi)完成所有評(píng)論和元評(píng)論。該過程要求每篇論文有 3 篇評(píng)論,一旦完成,則需要一篇元評(píng)論。這是一個(gè)非常緊迫的轉(zhuǎn)變。

相比之下,在 ACL 2021 中,從提交到通知的時(shí)間為 92 天,幾乎是 ARR 目標(biāo)的3倍。但是 ACL-2022 使用了 ARR 而 ACL-2021 沒有。如果 ARR 真的快了3倍,為什么表2的時(shí)間表中沒有出現(xiàn)這種加速?

圖2. ACL-2022并沒有比ACL-2021快

速度很重要,但質(zhì)量更重要。為什么審核這么差?正如羅杰斯在她的博客中指出的那樣,審稿人很累而且報(bào)酬過低。但這也適用于研究人員。

我們大多數(shù)人做所做的事情是因?yàn)槲覀兎浅jP(guān)心所做的事情。研究人員也很累且報(bào)酬過低,但這不是差評(píng)的根本原因。更可能的根本原因是將論文分配給的審稿人。ARR 有許多嚴(yán)重的設(shè)計(jì)缺陷,使得審稿人很可能會(huì)比以前更不合格。以前很少有學(xué)生被邀請(qǐng)審稿。審稿人通常是被引論文的作者,這增加了審稿人熟悉相關(guān)背景材料的幾率,并積極傾向于一般方法。

過去,審稿人在該主題方面的專業(yè)知識(shí)比論文的目標(biāo)讀者多。不幸的是,現(xiàn)在情況已不再如此。

追求SOTA是這些新(但未改進(jìn))流程的自然結(jié)果。由于作者不能假設(shè)審稿人是合格的或?qū)υ擃I(lǐng)域有同理心,作者需要提出一個(gè)簡單的論點(diǎn),以便與沒有動(dòng)力的審稿人一起工作。根據(jù)經(jīng)驗(yàn),作者發(fā)現(xiàn)強(qiáng)調(diào)SOTA對(duì)于隨機(jī)審稿人是有效的。

我們不能責(zé)怪作者所做的事情,也不能責(zé)怪審稿人所做的事情。我們已經(jīng)看到了問題,而且是我們自己造成的。

總結(jié)

以上是生活随笔為你收集整理的审视AI界的“SOTA成瘾”丨AI学者万字论述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。