日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格

發布時間:2024/6/21 windows 45 传统文化
生活随笔 收集整理的這篇文章主要介紹了 上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
感謝網友 佳宜 的線索投遞!

6 月 20 日消息,上海人工智能實驗室 19 日公布了首個 AI 高考全卷評測結果。據介紹,2024 年全國高考甫一結束,該實驗室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進行高考“語數外”全卷能力測試。

評測采用全國新課標 I 卷,參與評測的所有開源模型開源時間均早于高考,確保評測“閉卷”性。同時,成績由具有高考評卷經驗的教師人工評判,更加接近真實閱卷標準。

該機構表示,Qwen2-72B、GPT-4o 及書生?浦語 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過 70%。大部分模型“考生”語文、英語科目表現良好,但數學方面仍有很大提升空間。

具體來看,InternLM2-20B-WQX 取得了數學單科的最高分,超越包括 GPT-4o 在內的所有模型。

注:此次參與“大模型高考”評測的產品包含 GPT-4o 及其他 6 個模型。為公平起見,此次評測沒有納入商用閉源模型。

  • Mixtral 8x22B:法國 AI 創業公司 Mistral 于 2024 年 4 月 17 日開源的對話模型。

  • Yi-1.5-34B:零一萬物公司于 2024 年 5 月 12 日開源的 Yi-1.5 系列最大的模型。

  • GLM-4-9B:智譜 AI 于 2024 年 6 月 4 日推出的最新一代預訓練模型 GLM-4 系列的開源版本。

  • InternLM2-20B-WQX:上海人工智能實驗室于 2024 年 6 月 4 日開源的書生?浦語 2.0 系列文曲星大語言模型。

  • Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日開源的 Qwen2 系列 MoE 對話模型。

  • Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日開源的 72B 稠密模型。

語數外三科加起來的滿分為 420 分,此次高考測試結果顯示,阿里通義千問 2-72B 排名第一,為 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能實驗室的書生?浦語 2.0 排名第三,三個大模型的得分率均超過 70%。來自法國大模型初創公司的 Mistral 排名末尾,僅拿下 185 分。

數學是所有大模型的短板,平均得分率僅有 36%,參與測試的大模型無一及格

此外,閱卷教師也對大模型表現進行了整體分析,為模型能力提升策略提供參考。

語文

模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。

大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法。

多數模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”,大模型尚無法完全理解。

數學

大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。

大模型的公式記憶能力較強,但是無法在解題過程中靈活引用。

英語

英語整體表現良好,但部分模型由于不適應題型,在七選五、完形填空等題型得分率較低。

大模型英語作文普遍存在因超出字數限制而扣分的情況,而人類考生多因為字數不夠扣分。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。