當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

OpenAI新模型曝光：给它半张图片，能够猜测补全

發(fā)布時(shí)間：2023/11/22 综合教程 54 生活家

生活随笔收集整理的這篇文章主要介紹了 OpenAI新模型曝光：给它半张图片，能够猜测补全小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

　　Karen Hao DeepTech 深科技

　　去年 2 月，位于美國(guó)舊金山的研究實(shí)驗(yàn)室 OpenAI 宣布，其 AI 系統(tǒng)已經(jīng)可以自行用英文寫(xiě)出一段令人信服的短文。在這個(gè)被稱為 GPT-2 的模型中輸入一個(gè)句子或段落的開(kāi)頭，該模型就可以按照所給文本的思路續(xù)寫(xiě)出一篇文章，其上下文的連貫性幾乎同人類一樣，可以假亂真。

　　如今，該實(shí)驗(yàn)室正在探索若在相同的算法中輸入某張圖片的一部分會(huì)發(fā)生什么。在本周的機(jī)器學(xué)習(xí)國(guó)際會(huì)議（ICML 2020）上，這一研究成果獲得了最佳論文的榮譽(yù)稱號(hào)，為圖像生成開(kāi)辟了一條新的路徑。

　　GPT-2 的核心其實(shí)是一個(gè)強(qiáng)大的預(yù)測(cè)引擎。它通過(guò)查看從互聯(lián)網(wǎng)各處搜索得來(lái)的數(shù)十億單詞、句子和段落，學(xué)習(xí)并掌握了英語(yǔ)這門(mén)語(yǔ)言的結(jié)構(gòu)。掌握了這一結(jié)構(gòu)，GPT-2 就可以從統(tǒng)計(jì)學(xué)的角度預(yù)測(cè)單詞出現(xiàn)的順序，從而操縱單詞，將不同的單詞組成新的句子。

　　因此，OpenAI 的研究人員決定將單詞換成像素，在 ImageNet（最受歡迎的深度學(xué)習(xí)圖像庫(kù)）上用圖片訓(xùn)練相同的算法。由于該算法最初是為處理一維數(shù)據(jù)（例如文本字符串）而設(shè)計(jì)的，于是研究人員將圖片展開(kāi)為單像素序列。他們將新模型命名為 iGPT，發(fā)現(xiàn)它可以理解視覺(jué)世界的二維結(jié)構(gòu)。提供給該模型某張圖片上半部分的像素序列，它就可以合乎情理地預(yù)測(cè)出圖片的下半部分。

　　下面，你可以看到一些例子。最左列是研究人員提供的圖片，最右列是原始圖片，中間是 iGPT 在預(yù)測(cè)的基礎(chǔ)上補(bǔ)全的圖片。

　　iGPT 的這一訓(xùn)練結(jié)果讓人非常吃驚，它展示了開(kāi)發(fā)計(jì)算機(jī)視覺(jué)系統(tǒng)的一條新路徑，即利用在無(wú)人為標(biāo)簽的數(shù)據(jù)上進(jìn)行訓(xùn)練的無(wú)監(jiān)督學(xué)習(xí)。事實(shí)上，2005 年左右，早期的計(jì)算機(jī)視覺(jué)系統(tǒng)就曾試用過(guò)這一技術(shù)，但由于當(dāng)時(shí)使用人為標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí)更為成功，這一技術(shù)就遭到了冷落。但是，無(wú)監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)就在于 AI 系統(tǒng)可以在沒(méi)有人工過(guò)濾器的前提下去了解世界，大大減少了標(biāo)記數(shù)據(jù)的體力勞動(dòng)。

　　iGPT 與 GPT-2 使用相同算法的，這一事實(shí)也顯示了 iGPT 具有良好的適應(yīng)能力。這也與 OpenAI 的最終目標(biāo)一致，即創(chuàng)造出更通用的機(jī)器智能。

　　同時(shí)，該方法為生成深度偽造圖片提供了一種新思路。在過(guò)去，生成式對(duì)抗網(wǎng)絡(luò)（GAN）是生成深度偽造圖片最常用的算法類別，必須用高度精確的數(shù)據(jù)進(jìn)行訓(xùn)練。例如，若想用 GAN 生成一張臉，那么訓(xùn)練的數(shù)據(jù)也只能是臉。相反，iGPT 通過(guò)數(shù)百萬(wàn)和數(shù)十億的圖片學(xué)習(xí)了視覺(jué)世界的結(jié)構(gòu)，從而可以生成極有可能真實(shí)存在的圖片。雖然從計(jì)算層面上來(lái)看，訓(xùn)練這一模型成本太過(guò)昂貴，為其進(jìn)入圖像庫(kù)設(shè)下了一道天然的屏障，但這一問(wèn)題在不久的將來(lái)很快就可以得到解決。

　　OpenAI 沒(méi)有接受采訪，但在《麻省理工科技評(píng)論》去年參加的一次內(nèi)部政策小組會(huì)議上，其政策總監(jiān)杰克·克拉克（Jack Clark）對(duì) GPT 式生成模型未來(lái)存在的風(fēng)險(xiǎn)進(jìn)行了思考，包括將其應(yīng)用于圖像領(lǐng)域會(huì)發(fā)生什么。他基于自身所見(jiàn)，預(yù)測(cè)了該領(lǐng)域的研究軌跡走向并說(shuō)到，“很快會(huì)應(yīng)用到視頻。大概再過(guò) 5 年，就可以在 5 到 10 秒的間隔內(nèi)完成條件視頻生成。”接著，他描述了自己想象的情景：輸入一張政客的照片，照片上政客的旁邊發(fā)生了爆炸，該模型就很可能輸出該政客被謀殺的信息。

　　編譯：李珊

　　參考：https://www.technologyreview.com/2020/07/16/1005284/openai-ai-gpt-2-generates-images/

總結(jié)

以上是生活随笔為你收集整理的OpenAI新模型曝光：给它半张图片，能够猜测补全的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： AI芯片第一股寒武纪诞生，经典回顾四大明
下一篇：再获4亿美元！这家软银投资的生物公司通过

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

OpenAI新模型曝光：给它半张图片，能够猜测补全

總結(jié)