日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自驱力超强的羊驼?斯坦福微调LLaMa

發布時間:2024/3/13 编程问答 113 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自驱力超强的羊驼?斯坦福微调LLaMa 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大型“指令調優”語言模型在新任務上展現了Zero-shot的卓越能力,但嚴重依賴于人類編寫的指令數據,而這些數據在數量、多樣性和創造性方面都是有限的。

斯坦福科研人員引入了self-instruction框架,提高指令遵循能力來自我迭代進化,與InstructGPT的性能相當,相比原始GPT3提升33%!將大模型與指令對齊再也不用人工標注(annotation-free),最后還發布了他們合成的自生成指令數據集,來促進對指令調優的研究。

自我指示self-instruct

self-instruct是一種任務不可知(task-agnostic)的方法,通過自己生成指令數據(指令、輸入和輸出樣本)并使用它進行引導來提高語言模型的指令遵循能力。

自動指示執行的流程:

首先準備好一個小的任務種子集(每個任務的一條指令和一個輸入-輸出實例)作為任務池開始,從任務池中抽取隨機任務用于提示語言模型LM(例如GPT3)生成新的指令和實例,再過濾低質量或類似的生成,合格的就添加回任務池。

羊駝Alpaca模型

指令遵循語言模型叫Alpaca羊駝,是在近期Meta開源的LLaMA 7B模型上進行微調的。語料使用的是text-davinci-003生成的52K指令。stanford_alpaca在GitHub開源,地址見文末。

整體流程圖:

訓練過程中,使用了完全分片數據并行(Fully Sharded Data Parallel)混合精度(mixed precision) 等訓練等技術,硬件方面:在8個80GB A100上對7B LLaMA模型進行微調3個小時,成本竟然不到100美元!但效果驚人,與InstructGPT_001的性能相當。

數據集合評估方法

52k數據集分布:

模型評估
采用四級評級系統,用于分類模型輸出的質量,定義如下:
A: 回答是有效和令人滿意的
B:響應是可以接受的,但有一些小錯誤或缺陷可以改進
C:響應是相關的,并響應指令,但它在內容中有重大錯誤。
D:響應不相關或無效,包括重復輸入,完全不相關的輸出等。

首發原文鏈接:

自驅力超強的羊駝?斯坦福Alpaca媲美text-davinci-003,成本不到600美元!

總結

以上是生活随笔為你收集整理的自驱力超强的羊驼?斯坦福微调LLaMa的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。