當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

牛津大学最新调研：AI面临基准危机，NLP集中“攻关”推理测试

發(fā)布時(shí)間：2024/7/5 ChatGpt 53 豆豆

生活随笔收集整理的這篇文章主要介紹了牛津大学最新调研：AI面临基准危机，NLP集中“攻关”推理测试小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

來源：AI科技評(píng)論

作者:維克多

人工智能（AI）基準(zhǔn)為模型提供了衡量和比較的路徑，超越基準(zhǔn)，達(dá)到SOTA，經(jīng)常成為頂會(huì)論文的標(biāo)配。同時(shí)，有些基準(zhǔn)確實(shí)推動(dòng)了AI的發(fā)展，例如ImageNet 基準(zhǔn)測試對(duì)近幾年的熱潮功不可沒。

如今，ImageNet 基準(zhǔn)仍然在研究中發(fā)揮核心作用，一些新模型，例如谷歌的Vision Transformer在論文中仍然與ImageNet方法進(jìn)行比較。

但，如果某一基準(zhǔn)的分?jǐn)?shù)一直占據(jù)榜首，后續(xù)沒有高質(zhì)量基準(zhǔn)引入，那么這種依靠基準(zhǔn)推動(dòng)發(fā)展的“路子”就有問題。

近日，維也納醫(yī)科大學(xué)和牛津大學(xué)的研究人員對(duì)AI基準(zhǔn)圖譜進(jìn)行了調(diào)查，共統(tǒng)計(jì)了2013年以來CV和NLP領(lǐng)域的406項(xiàng)任務(wù)的1688項(xiàng)基準(zhǔn)。發(fā)現(xiàn)：很大一部分基準(zhǔn)迅速趨于接近飽和，還有一部分基準(zhǔn)被擱置；同時(shí)，在NLP領(lǐng)域，從2020年開始，新基準(zhǔn)的建立減少，方向轉(zhuǎn)向推理或推理相關(guān)的高級(jí)任務(wù)上。

在文中，作者呼吁，未來的工作應(yīng)該著重于大規(guī)模的社區(qū)合作，以及將基準(zhǔn)性能與現(xiàn)實(shí)世界效用和影響相聯(lián)系。

33%的AI基準(zhǔn)被“擱置”

從單個(gè)基準(zhǔn)出發(fā)，如上圖可以看出基準(zhǔn)上的SOTA有三種狀態(tài)：穩(wěn)定增長，停滯或飽和，以及停滯后的飛躍。其中，穩(wěn)定增長代表技術(shù)穩(wěn)定；停滯背后代表缺乏技術(shù)進(jìn)步的能力；而爆發(fā)是指技術(shù)出現(xiàn)突破。

事實(shí)上，近年來，關(guān)鍵領(lǐng)域，如NLP，有相當(dāng)一部分新基準(zhǔn)迅速趨于飽和，或者設(shè)計(jì)針對(duì)特定基準(zhǔn)特征過度優(yōu)化的模型，而這些模型往往無法泛化到其他數(shù)據(jù)中。

目前，這些現(xiàn)象已經(jīng)蔓延到相同領(lǐng)域的不同基準(zhǔn)中，例如上圖，CIFAR-10和CIFAR-100的狀態(tài)。

同時(shí)，數(shù)量方面也出現(xiàn)了尷尬的局面，例如《2021年的人工智能指數(shù)報(bào)告》指出，CV基準(zhǔn)數(shù)量或許能滿足日益增長的任務(wù)需求；而NLP模型的增長速度正在超過現(xiàn)有的問答和自然語言理解基準(zhǔn)。

Martínez-Plumed等學(xué)者分析了 CIFAR-100 和 SQuAD1.1 等 25 個(gè)流行 AI 基準(zhǔn)背后“故事”，他們發(fā)現(xiàn)“SOTA 前沿”由某些長期協(xié)作的社區(qū)主導(dǎo)，例如美國或亞洲大學(xué)與科技公司共同合作的組織。

此外，其他學(xué)者分析了大量 AI 基準(zhǔn)測試工作中數(shù)據(jù)集使用和再利用的趨勢，他們發(fā)現(xiàn)，很大一部分“知名”數(shù)據(jù)集是由少數(shù)高知名度的組織提出，其中一些數(shù)據(jù)集被越來越多地重新用于新的任務(wù)。NLP是個(gè)例外，它對(duì)新的、特定任務(wù)的基準(zhǔn)的引入和使用超過了平均水平。

在這項(xiàng)研究中，維也納醫(yī)科大學(xué)和牛津大學(xué)的研究人員表明：飽和和擱置非常常見。總體看來有以下幾個(gè)趨勢：

1.缺乏研究興趣是導(dǎo)致停滯不前的原因之一；

2.所有基準(zhǔn)中的大多數(shù)很快就會(huì)達(dá)到技術(shù)停滯或飽和；

3.在某些情況下，會(huì)出現(xiàn)持續(xù)增長，例如在 ImageNet 基準(zhǔn)測試中；

4.性能改進(jìn)的動(dòng)態(tài)變化并不遵循一個(gè)清晰可辨的模式：在某些情況下，停滯階段之后是不可預(yù)測的飛躍。

圖注：基準(zhǔn)有三種發(fā)展趨勢：穩(wěn)定增長，停滯或飽和，以及停滯后的飛躍。

此外，在1688個(gè)基準(zhǔn)中，只有66%的基準(zhǔn)充分被利用，換言之33%的基準(zhǔn)被擱置。同時(shí)，基準(zhǔn)測試的另一個(gè)趨勢是：被某些既定機(jī)構(gòu)和公司的數(shù)據(jù)集主導(dǎo)。

NLP基準(zhǔn)正面向高難度的任務(wù)

過去幾年，CV領(lǐng)域的基準(zhǔn)占據(jù)主導(dǎo)地位，但NLP也開始了蓬勃發(fā)展。2020年，新基準(zhǔn)的數(shù)量有所下降，越來越多地集中在難度較高的任務(wù)上，例如測試推理的任務(wù)，例如BIG-bench和NetHack，前者屬于谷歌，后者來自Facebook。

上圖是NLP的基準(zhǔn)生命周期展示，可以清晰看出，大多數(shù)任務(wù)的幾個(gè)主流基準(zhǔn)是在2011~2015年間建立的，這期間，也只有少數(shù)幾個(gè)SOTA出現(xiàn)。2016年之后，新基準(zhǔn)的建立速度大大加快，在翻譯和自然語言建模方面表現(xiàn)最為突出；2018和2019年，分別都針對(duì)各種任務(wù)建立了大量的基準(zhǔn)；2020年是個(gè)轉(zhuǎn)折點(diǎn)，新基準(zhǔn)的建立減少，方向轉(zhuǎn)向推理或推理相關(guān)的高級(jí)任務(wù)上。

整體來說，當(dāng)前AI基準(zhǔn)的趨勢是：來自既定機(jī)構(gòu)（包括工業(yè)界）的基準(zhǔn)的趨勢引起了人們對(duì)基準(zhǔn)的偏見和代表性的關(guān)注；許多基準(zhǔn)并不能完全將AI性能與現(xiàn)實(shí)世界相匹配，因此，開發(fā)少量但有質(zhì)量保證，涵蓋多種AI能力、場景的基準(zhǔn)可能是可取的。

最后，研究人員展望，在未來，新的基準(zhǔn)應(yīng)該由來自許多機(jī)構(gòu)、知識(shí)領(lǐng)域的大型合作團(tuán)隊(duì)開發(fā)，如此才能確保建立高質(zhì)量的基準(zhǔn)。

參考鏈接

https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/

https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf

未來智能實(shí)驗(yàn)室的主要工作包括：建立AI智能系統(tǒng)智商評(píng)測體系，開展世界人工智能智商評(píng)測；開展互聯(lián)網(wǎng)（城市）大腦研究計(jì)劃，構(gòu)建互聯(lián)網(wǎng)（城市）大腦技術(shù)和企業(yè)圖譜，為提升企業(yè)，行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來科技發(fā)展趨勢的學(xué)習(xí)型文章。目前線上平臺(tái)已收藏上千篇精華前沿科技文章和報(bào)告。

??如果您對(duì)實(shí)驗(yàn)室的研究感興趣，歡迎加入未來智能實(shí)驗(yàn)室線上平臺(tái)。掃描以下二維碼或點(diǎn)擊本文左下角“閱讀原文”

總結(jié)

以上是生活随笔為你收集整理的牛津大学最新调研：AI面临基准危机，NLP集中“攻关”推理测试的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

ChatGpt

牛津大学最新调研：AI面临基准危机，NLP集中“攻关”推理测试

總結(jié)