日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

UC 伯克利发布大语言模型排行榜,Vicuna 夺冠,清华 ChatGLM 进前 5

發布時間:2023/12/19 综合教程 28 生活家
生活随笔 收集整理的這篇文章主要介紹了 UC 伯克利发布大语言模型排行榜,Vicuna 夺冠,清华 ChatGLM 进前 5 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

萬萬沒想到,現在大語言模型們也要像王者榮耀 / LoL / Dota 這些游戲里的玩家一樣打排位賽了!據說,那些閉源模型們很快也會被拉出來溜溜。

最近,來自 LMSYS Org(UC 伯克利主導)的研究人員又搞了個大新聞 —— 大語言模型版排位賽!

顧名思義,「LLM 排位賽」就是讓一群大語言模型隨機進行 battle,并根據它們的 Elo 得分進行排名。

然后,我們就能一眼看出,某個聊天機器人到底是「嘴強王者」還是「最強王者」。

劃重點:團隊還計劃把國內和國外的這些「閉源」模型都搞進來,是騾子是馬溜溜就知道了!(GPT-3.5 現在就已經在匿名競技場里了)

匿名聊天機器人競技場長下面這樣:

很明顯,模型 B 回答正確,拿下這局;而模型 A 連題都沒讀懂……

項目地址:https://arena.lmsys.org/

在當前的排行榜中,130 億參數的 Vicuna 以 1169 分穩居第一,同樣 130 億參數的 Koala 位列第二,LAION 的 Open Assistant 排在第三。

清華提出的 ChatGLM,雖然只有 60 億參數,但依然沖進了前五,只比 130 億參數的 Alpaca 落后了 23 分。

相比之下,Meta 原版的 LLaMa 只排到了第八(倒數第二),而 Stability AI 的 StableLM 則獲得了唯一的 800 + 分,排名倒數第一。

團隊表示,之后不僅會定期更新排位賽榜單,而且還會優化算法和機制,并根據不同的任務類型提供更加細化的排名。

目前,所有的評估代碼以及數據分析均已公布。

拉著 LLM 打排位

在這次的評估中,團隊選擇了目前比較出名的 9 個開源聊天機器人。

每次 1v1 對戰,系統都會隨機拉兩個上場 PK。用戶則需要同時和這兩個機器人聊天,然后決定哪個聊天機器人聊的更好。

可以看到,頁面下面有 4 個選項,左邊(A)更好,右邊(B)更好,一樣好,或者都很差。

當用戶提交投票之后,系統就會顯示模型的名稱。這時,用戶可以繼續聊天,或者選擇新的模型重新開啟一輪對戰。

不過,團隊在分析時,只會采用模型是匿名時的投票結果。在經過差不多一周的數據收集之后,團隊共收獲了 4.7k 個有效的匿名投票。

在開始之前,團隊先根據基準測試的結果,掌握了各個模型可能的排名。

根據這個排名,團隊會讓模型去優先選擇更合適的對手。

然后,再通過均勻采樣,來獲得對排名的更好總體覆蓋。

在排位賽結束時,團隊又引入了一種新模型 fastchat-t5-3b。

以上這些操作最終導致了非均勻的模型頻率。

每個模型組合的對戰次數

從統計數據來看,大多數用戶所用的都是英語,中文排在第二位。

排名前 15 的語言的對戰次數

評估 LLM,真的很難

自從 ChatGPT 爆火之后,經過指令跟隨微調的開源大語言模型如雨后春筍一般大量涌現。可以說,幾乎每周都有新的開源 LLM 在發布。

但問題是,評估這些大語言模型非常難。

具體來說,目前用來衡量一個模型好不好的東西基本都是基于一些學術的 benchmark,比如在一個某個 NLP 任務上構建一個測試數據集,然后看測試數據集上準確率多少。

然而,這些學術 benchmark(如 HELM)在大模型和聊天機器人上就不好用了。其原因在于:

1. 由于評判聊天機器人聊得好不好這件事是非常主觀的,因此現有的方法很難對其進行衡量。

2. 這些大模型在訓練的時候就幾乎把整個互聯網的數據都掃了一個遍,因此很難保證測試用的數據集沒有被看到過。甚至更進一步,用測試集直接對模型進行「特訓」,如此一來表現必然更好。

3. 理論上我們可以和聊天機器人聊任何事情,但很多話題或者任務在現存的 benchmark 里面根本就不存在。

那如果不想采用這些 benchmark 的話,其實還有一條路可以走 —— 花錢請人來給模型打分。

實際上,OpenAI 就是這么搞的。但是這個方法明顯很慢,而且更重要的是,太貴了……

為了解決這個棘手的問題,來自 UC 伯克利、UCSD、CMU 的團隊發明了一種既好玩又實用的全新機制 —— 聊天機器人競技場(Chatbot Arena)。

相比而言,基于對戰的基準系統具有以下優勢:

  • 可擴展性(Scalability)

當不能為所有潛在的模型對收集足夠的數據時,系統應能擴展到盡可能多的模型。

  • 增量性(Incrementality)

系統應能夠使用相對較少的試驗次數評估新模型。

  • 唯一順序(Unique order)

系統應為所有模型提供唯一順序。給定任意兩個模型,我們應該能夠判斷哪個排名更高或它們是否并列。

Elo 評分系統

Elo 等級分制度(Elo rating system)是一種計算玩家相對技能水平的方法,廣泛應用在競技游戲和各類運動當中。其中,Elo 評分越高,那么就說明這個玩家越厲害。

比如英雄聯盟、Dota 2 以及吃雞等等,系統給玩家進行排名的就是這個機制。

舉個例子,當你在英雄聯盟里面打了很多場排位賽后,就會出現一個隱藏分。這個隱藏分不僅決定了你的段位,也決定了你打排位時碰到的對手基本也是類似水平的。

而且,這個 Elo 評分的數值是絕對的。也就是說,當未來加入新的聊天機器人時,我們依然可以直接通過 Elo 的評分來判斷哪個聊天機器人更厲害。

具體來說,如果玩家 A 的評分為 Ra,玩家 B 的評分為 Rb,玩家 A 獲勝概率的精確公式(使用以 10 為底的 logistic 曲線)為:

然后,玩家的評分會在每場對戰后線性更新。

假設玩家 A(評分為 Ra)預計獲得 Ea 分,但實際獲得 Sa 分。更新該玩家評分的公式為:

1v1 勝率

此外,作者還展示了排位賽中每個模型的對戰勝率以及使用 Elo 評分估算的預測對戰勝率。

結果顯示,Elo 評分確實可以相對準確地進行預測

所有非平局 A 對 B 戰斗中模型 A 勝利的比例

在 A 對 B 戰斗中,使用 Elo 評分預測的模型 A 的勝率

作者介紹

「聊天機器人競技場」由前小羊駝作者機構 LMSYS Org 發布。

該機構由 UC 伯克利博士 Lianmin Zheng 和 UCSD 準教授 Hao Zhang 創立,目標是通過共同開發開放的數據集、模型、系統和評估工具,使每個人都能獲得大型模型。

Lianmin Zheng

Lianmin Zheng 是加州大學伯克利分校 EECS 系的博士生,他的研究興趣包括機器學習系統、編譯器和分布式系統。

Hao Zhang

Hao Zhang 目前是加州大學伯克利分校的博士后研究員。他將于 2023 年秋季開始在加州大學圣地亞哥分校 Hal?c?o?lu 數據科學研究所和計算機系擔任助理教授。

參考資料:

  • https://lmsys.org/blog/2023-05-03-arena/

本文來自微信公眾號:新智元 (ID:AI_era)

總結

以上是生活随笔為你收集整理的UC 伯克利发布大语言模型排行榜,Vicuna 夺冠,清华 ChatGLM 进前 5的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。