當前位置：首頁 > 运维知识 > MAC >内容正文

MAC

新晋大模型动不动声称超越GPT-4，我们整理了这些评测工具

發布時間：2023/11/24 MAC 70 博士

生活随笔收集整理的這篇文章主要介紹了新晋大模型动不动声称超越GPT-4，我们整理了这些评测工具小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章來源：AI先鋒官

圖片來源：由無界AI生成

自ChatGPT問世以來，全球掀起了大模型的“軍備競賽”。據報道，今年1-7月國內共發布了64個大模型。截至2023年7月，中國累計有130個大模型問世。

“百模大戰”都不足以形容如今的焦灼“戰況”，那么究竟哪家大模型更勝一籌呢？這就離不開大模型的評測。

然而，現階段并不存在一個公認有效的評測方式，這就導致國內外的大模型評測領域出現“榜單大戰”。不完全統計，目前市面上的評測工具（系統）不下50個，同類榜單的結果卻可以千差萬別。公眾關于“刷分”的質疑更是不絕于耳。

業界一般認為，評價一款大模型有兩個顯化標準：一是參數量，二是評測集。

所謂參數量，是指模型中可學習的參數數量，包括模型的權重和偏置。參數量的大小決定了模型的復雜程度，更多的參數和層數，是大模型區別于小模型的標志性特點。2022年，美國一批大模型亮相，從Stability AI發布由文字到圖像的生成式模型Diffusion，再到OpenAI推出的ChatGPT，模型參數規模開始進入百億、千億級別時代。

從表面指標看，千億參數的模型普遍比百億級表現更好。不過這也不絕對，堆參數也未必就能提升能力。那么，同樣參數級別的模型應該如何分辨優劣？這就需要引入大模型的第二個評測維度——評測集。

評測集是為有效評估基礎模型及其微調算法在不同場景、不同任務上的綜合效果，所構建的單任務或多任務的統一基準數據集，有公開和封閉兩種形態。

這些評測集就像針對不同領域的考卷，通過測試大模型在這些“考卷”中的得分，人們可以更直觀地比較大模型的性能高低。

在小模型時代，大多數模型機構都會使用學術類評測集效果來作為評判模型好壞的依據?，F在，大模型廠商也開始更加主動地參與到學術界基準測試框架中來，視其為權威背書與營銷依據。

市面上已出現不少大模型的評測集，例如國際上用的較多的大模型評測集MMLU、中文評估模型C-Eval、SuperCLUE等。

-1- 評測工具

MMLU

全稱Massive Multitask Language Understanding，是一種針對大模型的語言理解能力的測評，是目前最著名的大模型語義理解測評之一，由UC Berkeley大學的研究人員在2020年9月推出。該測試涵蓋57項任務，包括初等數學、美國歷史、計算機科學、法律等。任務涵蓋的知識很廣泛，語言是英文，用以評測大模型基本的知識覆蓋范圍和理解能力。

論文地址：

https://arxiv.org/abs/2009.03300

官方網站:?

https://paperswithcode.com/dataset/mmlu

大模型排行榜:?

https://paperswithcode.com/sota/multi-task-anguage-understanding-on-mmlu

C-Eval

C-Eval 是一個全面的中文基礎模型評估套件。由上海交通大學、清華大學和愛丁堡大學研究人員在2023年5月份聯合推出，它包含了13948個多項選擇題，涵蓋了52個不同的學科和四個難度級別，用以評測大模型中文理解能力。

論文地址：

https://arxiv.org/abs/2305.08322

項目地址：

https://github.com/SJTU-LIT/ceval

官方網站：

https://cevalbenchmark.com/

SuperCLUE

中文通用大模型綜合性評測基準，從三個不同的維度評價模型的能力：基礎能力、專業能力和中文特性能力。

其中基礎能力能力包括: 語義理解、對話、邏輯推理、角色模擬、代碼、生成與創作等10項能力。

專業能力包括: 包括了中學、大學與專業考試，涵蓋了從數學、物理、地理到社會科學等50多項能力。

中文特性能力: 針對有中文特點的任務，包括了中文成語、詩歌、文學、字形等10項多種能力。

項目地址：

https://github.com/CLUEbenchmark/SuperCLUE

官方網站：

https://www.cluebenchmarks.com/

SuperCLUE瑯琊榜

中文通用大模型匿名對戰評價基準，與ChatbotArena相同以眾包方式讓不同的大模型產品進行匿名、隨機的對抗測評，結果基于Elo評級系統。

項目地址：

https://github.com/CLUEbenchmark/SuperCLUElyb

Chatbot Arena

ChatbotArena是一個大型語言模型 (LLM) 的基準平臺，該項目方LMSYS Org是由加州大學伯克利分校、加州大學圣地亞哥分校和卡內基梅隆大學合作創立的研究組織。

以眾包方式進行匿名隨機對戰的LLM基準平臺。通過demo體驗地址進入對戰平臺。輸入自己感興趣的問題，提交問題后，匿名模型會兩兩對戰，分別生成相關答案，需要用戶對答案做出評判，從4個評判選項中選擇一個：模型A更好、模型B更好、平手、都很差。支持多輪對話。最終使用Elo評分系統對大模型的能力進行綜合評估。(可以自己指定模型看效果，但不計入最終排名情況)。

項目地址：

https://github.com/lm-sys/FastChat

官方網站：

https://chat.lmsys.org/

FlagEval

FlagEval（天秤）由智源研究院將聯合多個高校團隊打造，是一種采用“能力—任務—指標”三維評測框架的大模型評測平臺，旨在提供全面、細致的評測結果。該平臺已提供了 30 多種能力、5 種任務和 4 大類指標，共 600 多個維度的全面評測，任務維度包括 22 個主客觀評測數據集和 84433 道題目。

FlagEval（天秤）第一期已推出大語言模型評測體系、開源多語言文圖大模型評測工具mCLIP-Eval 和開源文圖生成評測工具 ImageEval。天秤平臺還將繼續探索語言大模型評測與心理學、教育學、倫理學等社會學科的交叉研究，以期更加科學、全面地評價語言大模型。FlagEval 針對大模型開發者和使用者，旨在幫助各個開發團隊了解自身模型的薄弱之處，并推動技術創新。

項目地址：

https://github.com/FlagOpen/FlagEval

官方網站：

https://flageval.baai.ac.cn/

OpenCompass

2023年8月，上海人工智能實驗室（上海AI實驗室）正式推出OpenCompass大模型開放評測體系，通過完整開源可復現的評測框架，支持大語言模型、多模態模型各類模型的一站式評測，并定期公布評測結果榜單。

官方網站：

https://opencompass.org.cn/

項目地址：

https://github.com/open-compass/opencompass

JioNLP

考察 LLM 模型對人類用戶的幫助效果、輔助能力，可否達到一個“智能助手”的水平題型，選擇題來源于中國大陸國內各種專業性考試，重點在于考察模型對客觀知識的覆蓋面，占比 32%；主觀題來源于日常總結，主要考察用戶對 LLM 常用功能的效果。

項目地址:

https://github.com/dongrixinyu/JioNLP/wiki/LLI評測數據集

清華安全大模型測評

清華收集的一個評測集，涵蓋了仇恨言論、偏見歧視言論、犯罪違法、隱私、倫理道德等八大類別，包括細粒度劃分的40余個二級安全類別。

地址：http://115.182.62.166:18000

LLMEval-3

由復旦大學NLP實驗室推出，聚焦于專業知識能力評測，涵蓋哲學、經濟學、法學、教育學、文學、歷史學、理學、工學、農學、醫學、軍事學、管理學、藝術學等教育部劃定的13個學科門類、50余個二級學科，共計約20W道標準生成式問答題目。為了防止刷榜現象的發生，LLMEval-3評測采用了一種新穎的評測模式，即“題庫考試”模式。

地址：http://llmeval.com/

GAOKAO-Bench

GAOKAO-bench是一個以中國高考題目為數據集，測評大模型語言理解能力、邏輯推理能力的測評框架。

項目地址:?

https://github.com/OpenLMLab/GAOKAO-Bench

PandaLM

其是直接訓練了一個自動化打分模型，0.1.2三分制用模型對兩個候選模型進行打分。

項目地址：

https://github.com/We0penML/PandaLM

BIG-bench

google推出的一個評測集，BIG-bench由 204 項任務組成，任務主題涉及語言學、兒童發展、數學、常識推理、生物學物理學、社會偏見、軟件開發等等領域的問題。

項目地址:?

https://github.com/google/BIG-bench

MMCU

甲骨易AI研究院提出一種衡量中文大模型處理多任務準確度的測試, 數據集的測試內容涵蓋四大領域：醫療、法律、心理學和教育。題目的數量達到1萬+，其中包括醫療領域2819道題，法律領域3695道題，心理學領域2001道，教育領域3331道。

項目地址:?

https://github.com/Felixgithub2017/MMCU

AGI Eval

微軟發布的大模型基礎能力評測基準，在2023年4月推出，主要評測大模型在人類認知和解決問題的一般能力，涵蓋全球20種面向普通人類考生的官方、公共和高標準錄取和資格考試，包含中英文數據。因此，該測試更加傾向于人類考試結果，涵蓋了中英文。

論文地址：

https://arxiv.org/abs/2304.06364

GSM8K

OpenAI發布的大模型數學推理能力評測基準，涵蓋了8500個中學水平的高質量數學題數據集。數據集比之前的數學文字題數據集規模更大，語言更具多樣性，題目也更具挑戰性。該項測試在2021年10月份發布，至今仍然是非常困難的一種測試基準。

論文地址：

https://arxiv.org/abs/2110.14168

HELM

HELM評測方法主要包括場景、適配、指標三個模塊，每次評測的運行都需要指定一個場景，一個適配模型的提示，以及一個或多個指標。它評測主要覆蓋的是英語，有7個指標，包括準確率、不確定性/校準、魯棒性、公平性、偏差、毒性、推斷效率；任務包括問答、信息檢索、摘要、文本分類等。

論文地址:?

https://arxiv.org/pdf/2211.09110.pdf

項目地址:?

https://github.com/stanford-crfm/helm

Chinese-LLalA-Alpaca

它的打分就是相對值，優先使用gpt4，部分使用chatgpt3。

項目地址：

https://github.com/ymcui/Chinese-LLalA-Alpaca/tree/main

MT-bench

評估大模型的多輪對話和指令追隨能力。數據集包括80個(8category*10question)高質量且多輪對話的問題，每個問題由6個知名大模型( GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B, and LLaMA-13B)回答，人工排序得到3.3K pair對。

論文地址：

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

github

項目地址：

https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge

數據下載地址：

https://huggingface.co/datasets/lmsys/mt_bench_human_judgments

-2- 評測模式

通過上述評測工具發現，目前常見的大模型評測模式可以大致總結為四種：

1.做題打分。主要是收集各種各樣的評測數據集，然后把數據集分為不同的維度能力。通過設計一些prompt讓大模型去做這些數據集的任務，與標準答案進行對照計算分數。典型的如OpenCompass，huggingface的openLLM leaderboard等。

2.讓GPT-4做裁判。收集評測用的數據集（一些不是公開開源的、不帶標準答案的數據集也會包含在內），然后讓GPT-4給大模型的生成結果進行評判。此評判過程又有兩種打分方式，一是直接打分，一是設計一些維度，例如事實性、準確性、安全合規性等，然后更細粒度地進行評測。

3.競技場模式。類似于競技游戲里面的競技場。每次拉兩個大模型選手PK，由用戶（有時候也會用GPT-4）來評測哪個模型更好，贏的大模型有加分，輸的大模型有減分。當執行了足夠多的PK輪次后，就會有一個大模型的得分排行榜，這個榜單相對來說還是比較公正的，能夠較為客觀得體現模型的能力強弱。典型的例子如UC伯克利發布的Chatbot Arena Leaderboard。

4.針對單項能力的評測。例如針對數學能力、代碼能力、推理能力等，評測這些能力既可以判斷一個大模型是否真的具備類似人類的思考能力，其評測結果也能夠直接幫助在特定領域場合中選擇大模型（例如代碼助手）。

-3- 評價結果“天差地別”

評測工具五花八門，不同評測工具的評價結果也“天差地別”。

8月15日，一家機構的人工智能大模型體驗報告發布，對國內主流大模型進行使用體驗的橫向測評。該榜單用500道題目評測了國內8款主流AI大模型，最終訊飛星火排名第一，百度文心一言排名第二，阿里通義千問排在倒數第二。

9月，學術界當紅開源評測榜單C-Eval最新一期排行榜中，云天勵飛的大模型“云天書”排在第一，而GPT-4僅名列第十。

同月，SuperCLUE發布了大模型9月榜單。總榜上GPT-4排名第一，而商湯科技的SenseChat3.0拿下中文榜單首位。

10月19日，斯坦福大學發布了2023基礎模型透明度指數，對10個主流基礎模型進行了透明度評級，Llama 2排名第一、GPT-4排名第三。

為什么各大評測工具的評價結果截然不同呢？究其原因，主要有以下幾點：

1.每個流行學術評測集都有自己的側重點。比如Meta最常選用的GSM8K和MMLU，是不同水平的考試集——前者是小學數學，后者則是更高級的多學科問答。就像一個班的學生參加不同學科的考試，大模型們在不同榜單上自然排名不同。

2.主觀題在大模型評測中比例上升。在現行海內外大模型評測榜單中，主觀題與客觀題結合的思路普遍被業內認可。但主觀題的挑戰在于，每個人心中的評價標準是否一致。以及“人類團隊評分”必然會觸及題目數量的天花板，而對于大模型評測而言，題量越大得出的結論則越有效。

3.專用模型與通用大模型之間在垂直領域的同臺競技導致排名失真。在實際落地場景中，制造業、醫療、金融等行業內企業客戶在接入大模型能力時都需要根據自身數據庫做二次微調。這也意味著，原版通用大模型直接參與垂直領域問答所得出的結果，并不能夠代表大模型產品在垂直領域的真實表現。

4.開源測試集引發的“刷榜”現象。不少新晉大模型之所以能在開源測試集榜單上的排名超越GPT-4，一些原因是因為涉嫌“刷題”。例如C-Eval目前只公開了題目但沒有公開答案，參與測試的大模型廠商要么找數據標注員把題目做一遍，要么用GPT-4把題做一遍，再把答案扣下來訓練大模型，這樣都能在相應學科測試中獲得滿分。

閉源評測集就能規避“刷榜”嗎？不然，如果閉源評測集不進行更新換題，參與評測的模型可以從后臺拉出歷史記錄進行“作弊”，重做被測試過的問題。這等同于“虛假閉源”。

針對上述問題，業界也在探索相應的解決方案。

例如，對于大模型評測主觀題評價標準難以一致，以及“人類團隊評分”觸及題目數量天花板的問題，業內開始采用“人類+GPT4評分”的模式。國內如SuperCLUE會選擇將GPT4視作“評卷老師”，讓其加入人類團隊輔助評分。

再如“刷榜”問題，業內人士認為，“評測集應該是封閉的，避免被作弊，但一個好的大模型評測應該是過程公開的評測，方便大家對評測做監督。”

也有人認為，將大模型評測過程公開是很好的愿景，但考慮到評測的公平公正性，還是應有大量的封閉評測集，“閉卷考試”才能真正的評價出模型的能力。

此外還有防刷分的大模型評測，比如復旦大學NLP實驗室推出LLMEval-3采用了一種新穎的評測模式，即“題庫考試”模式。在LLMEval-3中，每個參與評測的系統需要完成從總題庫中隨機抽樣的1000題，針對同一機構的模型，確保每次評測題目不重復。評測過程將采用在線方式，一輪評測中題目的發送串行進行，即下一題的發送將會視上一道題目的回答情況而定，避免惡意爬取行為。

由于大模型涉及的領域和應用非常廣泛，不同領域、不同應用的大模型需要關注的指標和評估方法不盡相同。因此，針對具體應用領域和需求，不同機構和組織可能會提出不同的評估標準和方法?！氨M管沒有統一的標準，但測評的意義在于提供了一種評估和比較不同大模型性能和效果的方法，幫助用戶選擇適合自己需求的大模型?！?/p>

如何作出真正綜合全面的大模型評測，學界和產業界最前沿也“一頭霧水”。即便如此，權威機構更應加強研究，盡快形成共識，促進技術進步和行業發展。

總結

以上是生活随笔為你收集整理的新晋大模型动不动声称超越GPT-4，我们整理了这些评测工具的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：多数Uniswap DAO成员反对发行U
下一篇：高通最新一代骁龙芯片细节泄露，AI 能力