日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

微调baichuan2-7b遇到的显存坑

發(fā)布時間:2023/12/24 windows 30 coder
生活随笔 收集整理的這篇文章主要介紹了 微调baichuan2-7b遇到的显存坑 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

問題描述:
微調(diào)baichuan2-7b模型,驗(yàn)證一輪后繼續(xù)訓(xùn)練第一個iteration顯存大幅增加

項(xiàng)目鏈接:
https://github.com/wp931120/baichuan_sft_lora

具體描述:
由于某些原因,筆者是在transformers4.30.2、torch2.0.1,accelerate==0.22版本上進(jìn)行實(shí)驗(yàn)。

在訓(xùn)練過程中,發(fā)現(xiàn)顯存溢出,考慮是句子長度問題,將1024設(shè)置為512。
然而訓(xùn)練還是顯存溢出,通過調(diào)試分析,在評估驗(yàn)證集之前,顯存大概占用11G左右,在評估過程中,顯存依然保持11G左右,然而評估一結(jié)束,繼續(xù)訓(xùn)練時,顯存大幅增加,變?yōu)?0G左右,后面不管怎么訓(xùn)練和評估,顯存基本上都維持在20G。

然而根據(jù)項(xiàng)目作者的實(shí)驗(yàn),明明12G左右的顯存就夠。
為此,后經(jīng)群里大佬提示,考慮釋放torch緩存或者更新transformers版本。
1、嘗試各種方式在評估之后釋放顯存依然無效。
2、由于某些原因無法更新transformers版本,暫無法驗(yàn)證。

由于作者在原始代碼上的更改并不多,遂懷疑是否是由于基座大模型(baichuan2-7b)的原因?qū)е嘛@存增加,因此將基座大模型換成chatglm2-6b,將數(shù)據(jù)處理的代碼稍作修改后進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)模型在評估后繼續(xù)訓(xùn)練顯存沒有大幅增加

至此,雖然不清楚為什么baichuan-7b在當(dāng)前環(huán)境無法正常訓(xùn)練,可能的原因是當(dāng)前版本的transformers不太足夠支持baichuan-7b的訓(xùn)練,對chatglm2-6b訓(xùn)練是足夠的。

注釋:
卡2是chatglm2-6b在qlora訓(xùn)練模式下的顯存占用,卡3是baichuan2-7b在qlora訓(xùn)練模式下的顯存占用。

總結(jié)

以上是生活随笔為你收集整理的微调baichuan2-7b遇到的显存坑的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。