當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

GPT-3 Finetune

發布時間：2023/11/28 生活经验 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 GPT-3 Finetune 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一只小狐貍帶你解鎖煉丹術&NLP秘籍

2018年10月推出的BERT一直有著劃NLP時代的意義，然而還有一個讓人不能忽略的全程陪跑模型——OpenAI GPT（Generative Pre-Training）在以它的方式堅持著，向更通用的終極目標進發。

最初的GPT只是一個12層單向的Transformer，通過預訓練+精調的方式進行訓練，BERT一出來就被比下去了。之后2019年初的GPT-2提出了meta-learning，把所有NLP任務的輸入輸出進行了整合，全部用文字來表示，比如對于翻譯任務的輸入是“英翻法：This is life”，輸出是“C’est la vie”。直接把任務要做什么以自然語言的形式放到了輸入中。通過這種方式進行了大規模的訓練，并用了15億參數的大模型，一舉成為當時最強的生成模型。

遺憾的是，GPT-2在NLU領域仍并不如BERT，且隨著19年其他大模型的推出占據了下風，年初微軟推出的Turing-NLG已經到達了170億參數，而GPT-2只有15億。這些模型的尺寸已經遠遠超出了大部分公司的預算和調參俠們的想象。。。已經到極限了嗎？

不，“極限挑戰”才剛剛開始，OpenAI在十幾個小時前悄然放出了GPT第三季——《Language Models are Few-Shot Learners》。

paper鏈接：https://arxiv.org/abs/2005.14165

github鏈接：https://github.com/openai/gpt-3

GPT-3依舊延續自己的單向語言模型訓練方式，只不過這次把模型尺寸增大到了1750億，并且使用45TB數據進行訓練。同時，GPT-3主要聚焦于更通用的NLP模型，解決當前BERT類模型的兩個缺點：

對領域內有標簽數據的過分依賴：雖然有了預訓練+精調的兩段式框架，但還是少不了一定量的領域標注數據，否則很難取得不錯的效果，而標注數據的成本又是很高的。

對于領域數據分布的過擬合：在精調階段，因為領域數據有限，模型只能擬合訓練數據分布，如果數據較少的話就可能造成過擬合，致使模型的泛華能力下降，更加無法應用到其他領域。

因此GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。

為了達到上述目的，作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果：

這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的，因為GPT-3是單向transformer，在預測新的token時會對之前的examples進行編碼。

作者們訓練了以下幾種尺寸的模型進行對比：

最重要的是，GPT-3在Few-shot設定下，在部分NLU任務上超越了當前Fine-tuning的SOTA。該論文長達72頁（Google T5是53頁），第10頁之后都是長長的實驗結果與分析。需要的同學們可以在公眾號后臺回復「0529」獲取下載鏈接。

顯然，GPT-3的模型參數、訓練數據和工作量都是驚人的，論文署名多達31個作者，所有實驗做下來肯定也耗費了不少時間。雖然一直都存在對于大模型的質疑聲音，但我們確確實實從T5、GPT-3這樣的模型上看到了NLP領域的進步，眾多業務也開始受益于離線或者線上的BERT。事物的發展都是由量變到質變的過程，感謝科研工作者們的不懈努力和大廠們的巨額投入，奧利給

總結

以上是生活随笔為你收集整理的GPT-3 Finetune的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

GPT
Finetune

上一篇： torch.nn.functional.
下一篇： GPT3 api接口调用