當前位置：首頁 > 运维知识 > windows >内容正文

windows

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

發布時間：2023/11/9 windows 50 传统文化

生活随笔收集整理的這篇文章主要介紹了别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

“別讓大模型被基準評估給坑了”。

這是一項最新研究的題目，來自人民大學信息學院、高瓴人工智能學院和伊利諾伊大學厄巴納-香檳分校。

研究發現，基準測試中相關數據意外被用于模型訓練的現象，變得越來越常見了。

因為預訓練語料中包含很多公開文本資料，而評估基準也建立在這些信息之上，本來這種情況就在所難免。

現在隨著大模型試圖搜集更多公開數據，問題正在加重。要知道，這種數據重疊帶來的危害非常大。

不僅會導致模型部分測試分數虛高，還會使模型泛化能力下降、不相關任務表現驟降。甚至可能讓大模型在實際應用中產生“危害”。

所以這項研究正式發出警告，并通過多項模擬測試驗證了可能誘發的實際危害，具體來看。

大模型“被漏題”很危險

研究主要通過模擬極端泄露數據的情況，來測試觀察大模型會產生的影響。

極端泄露數據的方式有四種：

使用 MMLU 的訓練集
使用 MMLU 以外所有測試基準的訓練集
使用所有訓練集 + 測試 prompt
使用所有訓練集、測試集和測試 prompt（這是最極端情況，僅為實驗模擬，正常情況下不會發生）

然后研究人員給 4 個大模型進行“投毒”，然后再觀察它們在不同 benchmark 中的表現，主要評估了在問答、推理、閱讀理解等任務中的表現。

使用的模型分別是：

GPT-Neo（1.3B）
phi-1.5（1.3B）
OpenLLaMA（3B）
LLaMA-2（7B）

同時使用 LLaMA（13B / 30B / 65B）作為對照組。

結果發現，當大模型的預訓練數據中包含了某一個評測基準的數據，它會在這一評測基準中表現更好，但在其他不相關任務中的表現會下降。

比如使用 MMLU 數據集訓練后，多個大模型在 MMLU 測試中分數提高的同時，在常識基準 HSwag、數學基準 GSM8K 中分數下降。

這表明大模型的泛化能力受到影響。

另一方面，還可能造成不相關測試分數虛高。

如上給大模型進行“投毒”的四個訓練集中僅包含少量中文數據，但是大模型被“投毒”后，在 C3（中文基準測試）中的分數卻都變高了。

這種升高是不合理的。

這種訓練數據泄露的情況，甚至會導致模型測試分數，異常超越更大模型的表現。

比如 phi-1.5（1.3B）在 RACE-M 和 RACE-H 上的表現優于 LLaMA65B，后者是前者規模的 50 倍。

但這種分數升高沒有意義，只是作弊罷了。

更嚴重的是，哪怕是沒有被泄露數據的任務，也會受到影響，表現下降。

下表中可以看到，在代碼任務 HEval 中，兩個大模型都出現了分數大幅下降的情況。

同時被泄露數據后，大模型的微調提升遠不如未被泄露情況。

對于發生數據重疊 / 泄露的情況，本項研究分析了各種可能。比如大模型預訓練語料和基準測試數據都會選用公開文本（網頁、論文等），所以發生重疊在所難免。

而且當前大模型評估都是在本地進行，或者是通過 API 調用來獲得結果。這種方式無法嚴格檢查一些不正常的數值提升。以及當下大模型的預訓練語料都被各方視為核心機密，外界無法評估。所以導致了大模型被意外“投毒”的情況發生。

那該如何規避這一問題呢？研究團隊也出了一些建議。

如何規避？

研究團隊給出了三點建議：

第一，實際情況中很難完全避免數據重疊，所以大模型應該采用多個基準測試進行更全面的評估。
第二，對于大模型開發者，應該要對數據進行脫敏，公開訓練語料的詳細構成。
第三，對于基準測試維護人員，應該提供基準測試數據來源，分析數據被污染的風險，使用更多樣化的提示進行多次評估。

不過團隊也表示本次研究中還存在一定局限。比如沒有對不同程度數據泄露進行系統性測試，以及沒能在預訓練中直接引入數據泄露進行模擬等。

本次研究由中國人民大學信息學院、高瓴人工智能學院和伊利諾伊大學香檳分校的多位學者共同帶來。在研究團隊中我們發現了兩位數據挖掘領域大佬：文繼榮和韓家煒。

文繼榮教授現任中國人民大學高瓴人工智能學院院長、中國人民大學信息學院院長。主要研究方向為信息檢索、數據挖掘、機器學習、大規模神經網絡模型的訓練與應用。

韓家煒教授領銜是數據挖掘領域專家，現為伊利諾伊大學香檳分校計算機系教授，美國計算機協會院士和 IEEE 院士。

論文地址：

https://arxiv.org/abs/2311.01964

本文來自微信公眾號：量子位（ID：QbitAI），作者：明敏

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節省甄選時間，結果僅供參考，所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：打工仔曝光黑心烤肉摊的花活儿内幕
下一篇：英伟达将举行 CES 2024 发布会，