當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

UC 伯克利发布大语言模型排行榜，Vicuna 夺冠，清华 ChatGLM 进前 5

發布時間：2023/12/19 综合教程 28 生活家

生活随笔收集整理的這篇文章主要介紹了 UC 伯克利发布大语言模型排行榜，Vicuna 夺冠，清华 ChatGLM 进前 5 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

萬萬沒想到，現在大語言模型們也要像王者榮耀 / LoL / Dota 這些游戲里的玩家一樣打排位賽了！據說，那些閉源模型們很快也會被拉出來溜溜。

最近，來自 LMSYS Org（UC 伯克利主導）的研究人員又搞了個大新聞 —— 大語言模型版排位賽！

顧名思義，「LLM 排位賽」就是讓一群大語言模型隨機進行 battle，并根據它們的 Elo 得分進行排名。

然后，我們就能一眼看出，某個聊天機器人到底是「嘴強王者」還是「最強王者」。

劃重點：團隊還計劃把國內和國外的這些「閉源」模型都搞進來，是騾子是馬溜溜就知道了！（GPT-3.5 現在就已經在匿名競技場里了）

匿名聊天機器人競技場長下面這樣：

很明顯，模型 B 回答正確，拿下這局；而模型 A 連題都沒讀懂……

項目地址：https://arena.lmsys.org/

在當前的排行榜中，130 億參數的 Vicuna 以 1169 分穩居第一，同樣 130 億參數的 Koala 位列第二，LAION 的 Open Assistant 排在第三。

清華提出的 ChatGLM，雖然只有 60 億參數，但依然沖進了前五，只比 130 億參數的 Alpaca 落后了 23 分。

相比之下，Meta 原版的 LLaMa 只排到了第八（倒數第二），而 Stability AI 的 StableLM 則獲得了唯一的 800 + 分，排名倒數第一。

團隊表示，之后不僅會定期更新排位賽榜單，而且還會優化算法和機制，并根據不同的任務類型提供更加細化的排名。

目前，所有的評估代碼以及數據分析均已公布。

拉著 LLM 打排位

在這次的評估中，團隊選擇了目前比較出名的 9 個開源聊天機器人。

每次 1v1 對戰，系統都會隨機拉兩個上場 PK。用戶則需要同時和這兩個機器人聊天，然后決定哪個聊天機器人聊的更好。

可以看到，頁面下面有 4 個選項，左邊（A）更好，右邊（B）更好，一樣好，或者都很差。

當用戶提交投票之后，系統就會顯示模型的名稱。這時，用戶可以繼續聊天，或者選擇新的模型重新開啟一輪對戰。

不過，團隊在分析時，只會采用模型是匿名時的投票結果。在經過差不多一周的數據收集之后，團隊共收獲了 4.7k 個有效的匿名投票。

在開始之前，團隊先根據基準測試的結果，掌握了各個模型可能的排名。

根據這個排名，團隊會讓模型去優先選擇更合適的對手。

然后，再通過均勻采樣，來獲得對排名的更好總體覆蓋。

在排位賽結束時，團隊又引入了一種新模型 fastchat-t5-3b。

以上這些操作最終導致了非均勻的模型頻率。

每個模型組合的對戰次數

從統計數據來看，大多數用戶所用的都是英語，中文排在第二位。

排名前 15 的語言的對戰次數

評估 LLM，真的很難

自從 ChatGPT 爆火之后，經過指令跟隨微調的開源大語言模型如雨后春筍一般大量涌現。可以說，幾乎每周都有新的開源 LLM 在發布。

但問題是，評估這些大語言模型非常難。

具體來說，目前用來衡量一個模型好不好的東西基本都是基于一些學術的 benchmark，比如在一個某個 NLP 任務上構建一個測試數據集，然后看測試數據集上準確率多少。

然而，這些學術 benchmark（如 HELM）在大模型和聊天機器人上就不好用了。其原因在于：

1. 由于評判聊天機器人聊得好不好這件事是非常主觀的，因此現有的方法很難對其進行衡量。

2. 這些大模型在訓練的時候就幾乎把整個互聯網的數據都掃了一個遍，因此很難保證測試用的數據集沒有被看到過。甚至更進一步，用測試集直接對模型進行「特訓」，如此一來表現必然更好。

3. 理論上我們可以和聊天機器人聊任何事情，但很多話題或者任務在現存的 benchmark 里面根本就不存在。

那如果不想采用這些 benchmark 的話，其實還有一條路可以走 —— 花錢請人來給模型打分。

實際上，OpenAI 就是這么搞的。但是這個方法明顯很慢，而且更重要的是，太貴了……

為了解決這個棘手的問題，來自 UC 伯克利、UCSD、CMU 的團隊發明了一種既好玩又實用的全新機制 —— 聊天機器人競技場（Chatbot Arena）。

相比而言，基于對戰的基準系統具有以下優勢：

可擴展性（Scalability）

當不能為所有潛在的模型對收集足夠的數據時，系統應能擴展到盡可能多的模型。

增量性（Incrementality）

系統應能夠使用相對較少的試驗次數評估新模型。

唯一順序（Unique order）

系統應為所有模型提供唯一順序。給定任意兩個模型，我們應該能夠判斷哪個排名更高或它們是否并列。

Elo 評分系統

Elo 等級分制度（Elo rating system）是一種計算玩家相對技能水平的方法，廣泛應用在競技游戲和各類運動當中。其中，Elo 評分越高，那么就說明這個玩家越厲害。

比如英雄聯盟、Dota 2 以及吃雞等等，系統給玩家進行排名的就是這個機制。

舉個例子，當你在英雄聯盟里面打了很多場排位賽后，就會出現一個隱藏分。這個隱藏分不僅決定了你的段位，也決定了你打排位時碰到的對手基本也是類似水平的。

而且，這個 Elo 評分的數值是絕對的。也就是說，當未來加入新的聊天機器人時，我們依然可以直接通過 Elo 的評分來判斷哪個聊天機器人更厲害。

具體來說，如果玩家 A 的評分為 Ra，玩家 B 的評分為 Rb，玩家 A 獲勝概率的精確公式（使用以 10 為底的 logistic 曲線）為：

然后，玩家的評分會在每場對戰后線性更新。

假設玩家 A（評分為 Ra）預計獲得 Ea 分，但實際獲得 Sa 分。更新該玩家評分的公式為：

1v1 勝率

此外，作者還展示了排位賽中每個模型的對戰勝率以及使用 Elo 評分估算的預測對戰勝率。

結果顯示，Elo 評分確實可以相對準確地進行預測

所有非平局 A 對 B 戰斗中模型 A 勝利的比例

在 A 對 B 戰斗中，使用 Elo 評分預測的模型 A 的勝率

作者介紹

「聊天機器人競技場」由前小羊駝作者機構 LMSYS Org 發布。

該機構由 UC 伯克利博士 Lianmin Zheng 和 UCSD 準教授 Hao Zhang 創立，目標是通過共同開發開放的數據集、模型、系統和評估工具，使每個人都能獲得大型模型。

Lianmin Zheng

Lianmin Zheng 是加州大學伯克利分校 EECS 系的博士生，他的研究興趣包括機器學習系統、編譯器和分布式系統。

Hao Zhang

Hao Zhang 目前是加州大學伯克利分校的博士后研究員。他將于 2023 年秋季開始在加州大學圣地亞哥分校 Hal?c?o?lu 數據科學研究所和計算機系擔任助理教授。

參考資料：

https://lmsys.org/blog/2023-05-03-arena/

本文來自微信公眾號：新智元（ID：AI_era）

總結

以上是生活随笔為你收集整理的UC 伯克利发布大语言模型排行榜，Vicuna 夺冠，清华 ChatGLM 进前 5的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：曝vivo X100将于11月发布灭霸
下一篇：饮料中喝到大蟑螂蜜雪冰城商家回应：会给