當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

發(fā)布時(shí)間：2024/6/21 windows 47 传统文化

生活随笔收集整理的這篇文章主要介紹了上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

感謝網(wǎng)友佳宜的線索投遞！

6 月 20 日消息，上海人工智能實(shí)驗(yàn)室 19 日公布了首個(gè) AI 高考全卷評(píng)測(cè)結(jié)果。據(jù)介紹，2024 年全國(guó)高考甫一結(jié)束，該實(shí)驗(yàn)室旗下司南評(píng)測(cè)體系 OpenCompass 選取 6 個(gè)開源模型及 GPT-4o 進(jìn)行高考“語數(shù)外”全卷能力測(cè)試。

評(píng)測(cè)采用全國(guó)新課標(biāo) I 卷，參與評(píng)測(cè)的所有開源模型開源時(shí)間均早于高考，確保評(píng)測(cè)“閉卷”性。同時(shí)，成績(jī)由具有高考評(píng)卷經(jīng)驗(yàn)的教師人工評(píng)判，更加接近真實(shí)閱卷標(biāo)準(zhǔn)。

該機(jī)構(gòu)表示，Qwen2-72B、GPT-4o 及書生?浦語 2.0 文曲星（InternLM2-20B-WQX）成為本次大模型高考的前三甲，得分率均超過 70%。大部分模型“考生”語文、英語科目表現(xiàn)良好，但數(shù)學(xué)方面仍有很大提升空間。

具體來看，InternLM2-20B-WQX 取得了數(shù)學(xué)單科的最高分，超越包括 GPT-4o 在內(nèi)的所有模型。

注：此次參與“大模型高考”評(píng)測(cè)的產(chǎn)品包含 GPT-4o 及其他 6 個(gè)模型。為公平起見，此次評(píng)測(cè)沒有納入商用閉源模型。

Mixtral 8x22B：法國(guó) AI 創(chuàng)業(yè)公司 Mistral 于 2024 年 4 月 17 日開源的對(duì)話模型。
Yi-1.5-34B：零一萬物公司于 2024 年 5 月 12 日開源的 Yi-1.5 系列最大的模型。
GLM-4-9B：智譜 AI 于 2024 年 6 月 4 日推出的最新一代預(yù)訓(xùn)練模型 GLM-4 系列的開源版本。
InternLM2-20B-WQX：上海人工智能實(shí)驗(yàn)室于 2024 年 6 月 4 日開源的書生?浦語 2.0 系列文曲星大語言模型。
Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日開源的 Qwen2 系列 MoE 對(duì)話模型。
Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日開源的 72B 稠密模型。

語數(shù)外三科加起來的滿分為 420 分，此次高考測(cè)試結(jié)果顯示，阿里通義千問 2-72B 排名第一，為 303 分，OpenAI 的 GPT-4o 排名第二，得分 296 分，上海人工智能實(shí)驗(yàn)室的書生?浦語 2.0 排名第三，三個(gè)大模型的得分率均超過 70%。來自法國(guó)大模型初創(chuàng)公司的 Mistral 排名末尾，僅拿下 185 分。

數(shù)學(xué)是所有大模型的短板，平均得分率僅有 36%，參與測(cè)試的大模型無一及格。

此外，閱卷教師也對(duì)大模型表現(xiàn)進(jìn)行了整體分析，為模型能力提升策略提供參考。

語文

模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng)，但是不同模型的文言文閱讀理解能力差距較大。
大模型作文更像問答題，雖然有針對(duì)性但缺乏修飾，幾乎不存在人類考生都會(huì)使用舉例論證、引用論證、名人名言和人物素材等手法。
多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺(tái)詞”，大模型尚無法完全理解。

數(shù)學(xué)

大模型的主觀題回答相對(duì)凌亂，且過程具有迷惑性，甚至出現(xiàn)過程錯(cuò)誤但得到正確答案的情況。
大模型的公式記憶能力較強(qiáng)，但是無法在解題過程中靈活引用。

英語

英語整體表現(xiàn)良好，但部分模型由于不適應(yīng)題型，在七選五、完形填空等題型得分率較低。
大模型英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況，而人類考生多因?yàn)樽謹(jǐn)?shù)不夠扣分。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，所有文章均包含本聲明。

總結(jié)

以上是生活随笔為你收集整理的上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：科技昨夜今晨 0620：微信支付收款码接
下一篇：格科微量产第二代单芯片 32MP 图像传

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

windows

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

語文

數(shù)學(xué)

英語

總結(jié)