NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略
NLP:NLP領域沒有最強,只有更強的模型——GPT-3的簡介、安裝、使用方法之詳細攻略
?
導讀:NLP領域的模型,沒有最大,只有更大。博主這幾天也仔仔細細看了這篇長達75頁的論文,光署名作者都有二三十位吶。從內容上,可以明顯的看出,openAI團隊依然是將天然的自回歸語言特性的思想進行到底。GPT-3模型,不論是從參數,還是訓練數據上,都是歷史性的突破。哈哈,博主也想弄個demo搞一搞,想一想這45TB的訓練數據,即使用我這價值四五萬的電腦去調,怕是也要訓練到明年吧,額,算了,就像知乎網友說的那樣,難不成要用我的穿天猴去調試火箭發射到火星?哈哈,還是停留在想的階段吧。
感悟:看著GPT和BERT的成長,總感覺,NLP領域的模型均是在算力上發力,算力壟斷很有可能帶來系統性的AI技術壟斷,最后,AI帶來的利益或許終會屬于那些頭部的AI公司。其實,博主更多的希望在算法上突破,如果都去拼算力,那么未來受益的還是AI領域的頭部公司。
?
?
?
?
目錄
NLP領域牛叉模型進展進行時:GPT-1→BERT→GPT-2→GPT-3
1、2018年OpenAI提出GPT-1
2、2018年10月谷歌推出的BERT
3、2019年2月OpenAI提出GPT-2
4、2020年5月OpenAI提出GPT-3
5、階段性總結
GPT-3的簡介
關于GPT-3 的影響
關于GPT-3 的評價
關于GPT-3 的開源——為什么 OpenAI 決定發布 API,而不是開源整個模型?
GPT-3的安裝
GPT-3的使用方法
1、GPT-3的官方demo—原生能力,強到爆炸
(1)、Image GPT
(2)、OpenAI 開發了一款瀏覽器搜索插件
2、網友對GPT-3應用的二次開發
(1)、生成LaTeX 公式
(2)、Debuild 就能自動生成對應的 JSX 代碼
?
?
?
推薦文章
Paper:GPT-3《 Language Models are Few-Shot Learners》的翻譯與解讀
?
NLP領域牛叉模型進展進行時:GPT-1→BERT→GPT-2→GPT-3
? ? ? ? ?GPT是Generative Pre-training Transformer的簡稱,是由Alec Radford編寫的語言模型,2018年由埃隆·馬斯克的人工智能研究實驗室OpenAI發布。
?
1、2018年OpenAI提出GPT-1
? ? ? ? GPT 1.0采取預訓練+FineTuning兩個階段,它采取Transformer的decoder作為特征抽取器,總共堆疊12個。預訓練階段采用“單向語言模型”作為訓練任務,把語言知識編碼到decoder里。第二階段,在第一階段訓練好的模型基礎上,通過Finetuning來做具體的NLP任務,遷移能力強。GPT系列其實是一個讓人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式堅持著,向更通用的終極目標進發。
?
2、2018年10月谷歌推出的BERT
? ? ? ? 2018年10月推出的BERT一直有著劃NLP時代的意義。
?
3、2019年2月OpenAI提出GPT-2
? ? ? ? 最初,埃隆·馬斯克并不愿意發布它,因為他擔心它可能被用來向社交網絡發送假新聞。
? ? ? ? GPT-2提出了meta-learning,把所有NLP任務的輸入輸出進行了整合,全部用文字來表示,比如對于翻譯任務的輸入是“英翻法:This is life”,輸出是“C'est la vie”。直接把任務要做什么以自然語言的形式放到了輸入中。通過這種方式進行了大規模的訓練,并用了15億參數的大模型,一舉成為當時最強的生成模型,GPT-2 有著超大的規模,它是一個在海量數據集上訓練的基于 transformer 的巨大模型。 GPT-2在文本生成上有著驚艷的表現,其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。僅從模型架構而言,GPT-2 并沒有特別新穎的架構,它和只帶有解碼器的 transformer 模型很像。
? ? ? ??網友總結:GPT-2是對GPT的一個升級,并且更著重于將思路放在為何pretrain是有用的上面,認為LM本身是一個Multi-task Learner,并且大力用ZSL實驗來佐證這個思路。GPT-2相比于GPT,筆者感覺主要有三點改進:大數據、大模型、insight觀點。
? ? ? ? 但是,GPT-2在NLU領域仍并不如BERT,且隨著19年其他大模型的推出占據了下風,年初微軟推出的Turing-NLG已經到達了170億參數,而GPT-2只有15億。這些模型的尺寸已經遠遠超出了大部分公司的預算和調參俠們的想象。
?
4、2020年5月OpenAI提出GPT-3
Paper:GPT-3《 Language Models are Few-Shot Learners》的翻譯與解讀
? ? ? ? 2020年5月,OpenAI發布了GPT-3,這個模型包含的參數比GPT-2多了兩個數量級(1750億vs 15億個參數),它比GPT-2有了極大的改進。根據論文描述,GPT-3非常強大,給予任何文本提示,GPT-3將返回一個文本完成,試圖匹配用戶給它的模式。用戶可以給它 "編程",只需向它展示幾個希望它做的例子,它就會提供一篇完整的文章或故事。GPT-3在許多NLP數據集上都取得了很強的性能,包括翻譯、問題回答和cloze任務,以及一些需要即時推理或領域適應的任務,如在句子中使用一個新詞或執行3位數運算。GPT-3可以生成人類評估人員難以區分的新聞文章樣本。
? ? ? ? 的確,GPT-3看起來可以像人類一樣理解、推理和對話的通用人工智能,但OpenAI警告說,他們可能遇到了根本性的擴展問題,GPT-3需要幾千petaflop/s-day的計算量,相比之下,完整的GPT-2只有幾十petaflop/s-day。
? ? ? ? 知乎評價:GPT-3依舊延續自己的單向語言模型訓練方式,只不過這次把模型尺寸增大到了1750億,并且使用45TB數據進行訓練。同時,GPT-3主要聚焦于更通用的NLP模型,解決當前BERT類模型的兩個缺點:
? ? ? ? 因此GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
?
5、階段性總結
? ? ? ? ? 最初的GPT只是一個12層單向的Transformer,通過預訓練+精調的方式進行訓練,BERT一出來就被比下去了。之后2019年初的GPT-2提出了meta-learning,把所有NLP任務的輸入輸出進行了整合,全部用文字來表示。
?
?
GPT-3的簡介
官網:https://www.openai.com/
Github:https://github.com/openai/gpt-3
? ? ? ? ? GPT-3 是著名人工智能科研公司 OpenAI 開發的文字生成 (text generation) 技術,相關論文5月份已經發表,以天文數字級別的1750億參數量引發學界轟動。
? ? ? ? ? 原文摘要:通過對大量文本語料庫進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準上取得了實質性的進展。雖然在體系結構中通常與任務無關,但這種方法仍然需要成千上萬個示例的特定于任務的微調數據集。相比之下,人類通常可以通過幾個例子或簡單的指令來執行一項新的語言任務——這是目前的NLP系統在很大程度上仍難以做到的。這里,我們展示了擴展語言模型可以極大地提高任務不可知的、小樣本的性能,有時甚至可以通過預先采用的最先進的微調方法達到競爭力。具體來說,我們訓練GPT-3,這是一個自回歸語言模型,有1750億個參數,比以往任何非稀疏語言模型多10倍,并測試其在小樣本設置下的性能。對于所有任務,GPT-3的應用不需要任何梯度更新或微調,只需要通過與模型的文本交互指定任務和小樣本演示。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問題回答和完形填空任務,以及一些需要實時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位數字算術。與此同時,我們也發現了一些數據集,其中GPT-3的小樣本學習仍然存在困難,以及一些數據集,其中GPT-3面臨著與大型網絡語料庫培訓相關的方法論問題。最后,我們發現GPT-3可以生成人類評估者難以區分的新聞文章樣本和人類撰寫的文章樣本。我們將討論這一發現和GPT-3的更廣泛的社會影響。
?
關于GPT-3 的影響
? ? ? ? ? OpenAI 這次一反之前死守基礎研究的思路,將 GPT-3 做成了一個服務,提供可以調用的 OpenAI API,并且向開放了少量體驗資格,學術機構、商業公司和個人開發者都可以申請。
? ? ? ? ? Latitude 透露,隨著 GPT-3 的集成和新模式的推出,文字游戲內容的生成,和游戲系統對玩家輸入文字所作出的反應,變得更加自然和連貫了,顯著提高了玩家參與度,日活躍在2到2.5萬人作用,也帶動了高級版付費用戶增長了大約25%。
?
?
關于GPT-3 的評價
? ? ? ? ? 程序員 Arram Sabeti 看來,GPT-3 最讓他感到驚訝的不是寫出來的內容有多“以假亂真”,而是它能夠掌握幾乎所有的文體和內容格式:從歌詞到劇本,從產品說明書到新聞稿,從短篇故事到采訪內容,似乎沒有它搞不定的。
? ? ? ? ? 個人開發者 Kevin Lacker 做了一次圖靈測試,發現 GPT-3 在絕大部分知識類、常識類、邏輯類的問題,甚至很多角度十分刁鉆的問題上,表現非常令人驚訝。
?
關于GPT-3 的開源——為什么 OpenAI 決定發布 API,而不是開源整個模型?
- 1)將 GPT-3 技術商業化能夠產生收入,繼續支持 OpenAI 的人工智能科研、安全和政策研究方面的工作;
- 2)API 底層的模型其實非常龐大,開發和部署起來很復雜也很昂貴,據知情人士透露,訓練一個模型就花了355個GPU年,耗資高達460萬美元……所以除了大公司,其他人拿到模型也不會有任何收益。OpenAI 希望開放 API 能夠讓更多中小企業和機構獲益;
- 3)把模型開放了,別人想怎么用怎么用,OpenAI 管不著。通過 API,OpenAI 可以控制人們使用這項技術的方式,對濫用行為及時治理。
?
GPT-3的安裝
? ? ? ? ? 等待官宣,更新中……
?
?
GPT-3的使用方法
1、GPT-3的官方demo—原生能力,強到爆炸
(1)、Image GPT
https://www.openai.com/blog/image-gpt/
?
(2)、OpenAI 開發了一款瀏覽器搜索插件
這個插件就能根據你的問題,在當前網頁找到答案,并將你指向對應的位置。
?
?
?
?
2、網友對GPT-3應用的二次開發
(1)、生成LaTeX 公式
Viaduct 公司機器學習工程師 Shreya Shankar 花了很長時間把玩 OpenAI 提供的 API,最終成功開發出了一個非??犰诺?demo:英語 ?? LaTeX 翻譯機!只需要用自然語言輸入,就可以生成公式了!
(2)、Debuild 就能自動生成對應的 JSX 代碼
?
?
?
參考文章
GPT-3誕生,Finetune也不再必要了!NLP領域又一核彈!
API開放之后,我們才真正領略GPT-3的強大……?
?
?
?
?
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 成功解决win系统电脑中网络仅看到自己计
- 下一篇: Python:利用collections