新AI时代序幕已拉开 不信请看这十四大例
網(wǎng)易科技訊1月21日消息,時(shí)間過(guò)得比我們預(yù)想的要快,并且摩爾定律依然在發(fā)揮著作用。但是,仍然有很多事情要做。在接下來(lái)的文章中,我希望能夠列出2019年(部分發(fā)生在2018年)機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)領(lǐng)域的重大事件。這些大部分都是基于神經(jīng)網(wǎng)絡(luò)的模型,給我留下了深刻的印象。
圖1:BigGAN生成的時(shí)鐘圖像
伊恩·古德費(fèi)羅(Ian Goodfellow)曾發(fā)布推文,完美地展示了深度學(xué)習(xí)領(lǐng)域取得的成就:在短短4年半時(shí)間里,生成性對(duì)抗網(wǎng)絡(luò)(GAN)技術(shù)在面部生成領(lǐng)域取得的重大進(jìn)展。即使這與特定的主題有關(guān),GAN取得的進(jìn)步也很好地表明了已經(jīng)發(fā)生的事情,以及即將發(fā)生的事情。一幅畫勝過(guò)千言萬(wàn)語(yǔ)。我有一種感覺(jué),2019年的進(jìn)步比幾年前迅猛得多。
1 BigGan
BigGan擴(kuò)展了生成性對(duì)抗性網(wǎng)絡(luò)(GAN),允許用戶在巨大的可視數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練,并生成新的可視圖像。該系統(tǒng)的核心是兩個(gè)神經(jīng)網(wǎng)絡(luò),即生成器和鑒別器。生成器創(chuàng)建新的視覺(jué)效果,并試圖說(shuō)服鑒別器它是真實(shí)的圖像。而鑒別器將生成的圖像與其“經(jīng)驗(yàn)”對(duì)照,并將其作為“未通過(guò)”發(fā)送回生成器。這種反復(fù)的相互作用會(huì)始終持續(xù)下去,直到雙方達(dá)成某種“共識(shí)”。嘗試使用這款BigGAN功能,用戶可以使用分類條件采樣并創(chuàng)建例如山谷之類的圖像:
圖2:BigGAN生成的山谷圖像
如你所見,BigGan仍然屬于弱人工智能(Weak AI)。該網(wǎng)絡(luò)不知道時(shí)鐘是什么,它們只是知道,這個(gè)東西會(huì)是什么樣子:“圓形”,“有字符和箭頭”。我認(rèn)為AI解釋世界的嘗試與柏拉圖的形式與思維理論有明顯的相似之處:在柏拉圖看來(lái),思維或形式是物質(zhì)事物的元物理本質(zhì)。物質(zhì)的東西不是原作,而只是思維或形式的仿制品。
2 BigGAN蛻變
我們可以更進(jìn)一步,BigGAN不僅僅能生成帶標(biāo)簽的圖像,我們還可以使用它和插值函數(shù)來(lái)合并和變形東西。在BigGAN的情況下,生成的圖像A轉(zhuǎn)換為生成圖像B是可能的,盡管它們?cè)谡Z(yǔ)義上是不同的。使用這些設(shè)置,你可以把約克夏犬變成航天飛機(jī),這種方法開啟了前所未有的可能性,甚至超越了人類的想象。你甚至可以制作出漸變性更強(qiáng)的畫面,并將它們組合成動(dòng)畫素材。
圖3:狗狗變成了航天飛機(jī)
3風(fēng)格轉(zhuǎn)換
StyleGAN允許另一種類型的圖像修改——風(fēng)格轉(zhuǎn)換,即圖像A的風(fēng)格被轉(zhuǎn)移到圖像B中。目前有各種各樣基于深度學(xué)習(xí)的免費(fèi)和付費(fèi)應(yīng)用程序,可以把你的圖像轉(zhuǎn)換成世界藝術(shù)大師的藝術(shù)作品。我用各種藝術(shù)家的風(fēng)格轉(zhuǎn)換了我的用戶圖片,得到了令人信服的結(jié)果。
有人可能很熟悉風(fēng)格轉(zhuǎn)換功能,因?yàn)門owards Data Science提供了許多關(guān)于這個(gè)主題的很棒的文章。藝術(shù)家基尼·科根(Gene Cogan)將風(fēng)格轉(zhuǎn)移運(yùn)用到迪斯尼的《愛麗絲夢(mèng)游仙境》(茶會(huì)場(chǎng)景)中,并將17個(gè)著名的藝術(shù)作品的風(fēng)格轉(zhuǎn)移到動(dòng)畫中。最近,StyleGAN2進(jìn)入人們的視線,其圖像質(zhì)量得到了提高。此外,新的圖像修改方式也成為可能。例如,StyleGAN投影,與任何可能的圖像中的目標(biāo)圖像對(duì)齊。
4風(fēng)格轉(zhuǎn)換的創(chuàng)意運(yùn)用:繪畫的深度協(xié)調(diào)性
有些藝術(shù)家和開發(fā)者使用風(fēng)格轉(zhuǎn)換功能來(lái)進(jìn)行創(chuàng)造性的圖像處理。這個(gè)想法非常簡(jiǎn)單:1)以目標(biāo)圖像B為例;2)將其風(fēng)格轉(zhuǎn)換為要構(gòu)建到B中元素;3)結(jié)合與享受。該方法允許的藝術(shù)用途,例如用于數(shù)字圖像拼貼中的風(fēng)格轉(zhuǎn)移。基尼·科根(Gene Cogan)在自拍照中使用風(fēng)格轉(zhuǎn)換功能,將自己植入到世界藝術(shù)史中。
5Comixify,將視頻轉(zhuǎn)換為故事板
華沙科技大學(xué)的研究人員都對(duì)人工智能和漫畫藝術(shù)著迷,為此他們把自己的熱情結(jié)合到一個(gè)驚人的項(xiàng)目中。1)該模型利用智能視頻摘要對(duì)視頻進(jìn)行分析;2)視頻片段中的場(chǎng)景由深度學(xué)習(xí)定義的、最具美學(xué)影響的幀分隔;3)對(duì)圖像的特定風(fēng)格化進(jìn)行了風(fēng)格轉(zhuǎn)換;4)選定的幀被放入故事板或漫畫布局中。
我是塔爾科夫斯基(Tarkovsky)電影的超級(jí)粉絲,所以我很想看看這部超級(jí)版《潛行者》會(huì)發(fā)生什么。結(jié)果令人震驚,特別是如果你知道并且喜歡這部電影,你會(huì)發(fā)現(xiàn)畫面的選擇是多么令人驚訝。它實(shí)際上描繪了《潛行者》的核心思想,卻沒(méi)有破壞電影。
6 CycleGAN,無(wú)輸入輸出對(duì)的圖像到圖像轉(zhuǎn)換
當(dāng)BigGAN在預(yù)先訓(xùn)練的基礎(chǔ)上生成新圖像,StyleGAN在兩個(gè)圖像之間傳輸樣式時(shí),CycleGAN使用單個(gè)圖像將其樣式或特征轉(zhuǎn)換成不同的東西。實(shí)際上,這是一個(gè)不配對(duì)的圖像到圖像轉(zhuǎn)換,使用的是周期一致的對(duì)抗網(wǎng)絡(luò)。1) 圖像由GAN進(jìn)行分析(包括模式和目標(biāo)檢測(cè));2)應(yīng)用預(yù)先訓(xùn)練好的特征修改;3)與“1”中的圖像相同,“2”實(shí)現(xiàn)了新的視覺(jué)效果。
CycleGAN在不引用其他圖像的情況下更改圖像的樣式和視覺(jué)特征。它不僅可以把一個(gè)預(yù)先訓(xùn)練好的藝術(shù)家風(fēng)格轉(zhuǎn)化成一張照片,也可以將一幅畫修改成逼真的照片,使用預(yù)先訓(xùn)練的分割特征知識(shí)。你甚至可以在“馬與斑馬”之間進(jìn)行轉(zhuǎn)換。對(duì)我來(lái)說(shuō)最重要的是,深度學(xué)習(xí)使圖像的可修改性達(dá)到了一個(gè)新的高度,適合藝術(shù)用途。但危險(xiǎn)同樣存在,比如濫用情況。
7StyleGAN訓(xùn)練繪畫
_C0D32_在reddit上訓(xùn)練StyleGAN使用kaggle提供的24k藝術(shù)數(shù)據(jù)集。通過(guò)他修改的代碼,產(chǎn)生了各種風(fēng)格的新藝術(shù)作品。也就是說(shuō),StyleGAN用預(yù)先訓(xùn)練過(guò)的藝術(shù)風(fēng)格嘗試創(chuàng)作原創(chuàng)藝術(shù)品。有趣的是:即使你用這個(gè)模型得到了無(wú)數(shù)獨(dú)特的藝術(shù)品,但只要有一些藝術(shù)史的知識(shí),你就可以猜到,哪些風(fēng)格、藝術(shù)運(yùn)動(dòng)甚至藝術(shù)家在新的圖像中閃耀著光芒。
8 pic2pix:圖像到圖像轉(zhuǎn)換
Pix2pix是由菲利普·伊索拉(Phillip Isola)等人開發(fā)的,并在2017年迅速走紅。由條件對(duì)抗網(wǎng)絡(luò)完成的圖像轉(zhuǎn)換,允許將人造涂鴉呈現(xiàn)為照片級(jí)的圖像。
這肯定不只是有趣的草圖轉(zhuǎn)換:通過(guò)預(yù)定義的設(shè)置,用戶可以將航拍照片轉(zhuǎn)換為地圖,將日光照片轉(zhuǎn)換為夜景照片等。條件對(duì)抗網(wǎng)絡(luò)檢測(cè)模式并將其轉(zhuǎn)換為所需的主題(你必須定義目標(biāo)圖像任務(wù))。網(wǎng)絡(luò)針對(duì)特定的標(biāo)記圖像數(shù)據(jù)集進(jìn)行訓(xùn)練。
英偉達(dá)通過(guò)GauGan將這種方法提高到了另一個(gè)水平,這是他們?cè)贏I Playground進(jìn)行的實(shí)驗(yàn)之一。你可以使用分段驅(qū)動(dòng)草圖:每種顏色都應(yīng)用于特定的對(duì)象或材質(zhì)。轉(zhuǎn)換后生成新圖像具有類似CycleGAN的功能,可在各種視覺(jué)功能之間切換。
9 pix2pix、face2face、DeepFake以及Ctrl+Shift+Face
深度學(xué)習(xí)的世界充滿了實(shí)驗(yàn)。人們跳出思維束縛,這是深度學(xué)習(xí)最鼓舞人心的地方,也是通用人工智能最鼓舞人心的地方。吉恩·科根(Gene Cogan)用動(dòng)態(tài)的Pix2pix進(jìn)行了實(shí)驗(yàn):在這種情況下,來(lái)源不是草圖,而是網(wǎng)絡(luò)攝像頭(他的臉),目標(biāo)是根據(jù)特朗普的照片進(jìn)行訓(xùn)練。
這些實(shí)驗(yàn)啟發(fā)了研究人員,開發(fā)face2face程序。face2face是個(gè)模仿德國(guó)總理面部表情的Pix2Pix演示程序。1)face2face模型了解面部特征/地標(biāo);2)掃描面部特征的攝像頭輸入;3)它最終把這些輸入變成了另一張臉。
后真相時(shí)代的另一個(gè)前沿已經(jīng)到來(lái),現(xiàn)在我們不僅可以修改圖像,還可以修改移動(dòng)的圖像。就像流行即時(shí)通訊應(yīng)用上的AR應(yīng)用程序一樣,人工智能以完美的方式解釋視頻片段并對(duì)其進(jìn)行修改。像Ctrl+Shift+Face這樣的藝術(shù)家將這種方法完善到了令人難以置信的水平:他在face2face幫助下轉(zhuǎn)換了邪教電影中演員的頑皮面孔。
這種實(shí)現(xiàn)在以下方面具有多種可能性:電影制作人可以在試鏡前與演員進(jìn)行實(shí)驗(yàn)。他們還可以本地化電影,以便更好地同步各種語(yǔ)言,就像Synthesia對(duì)大衛(wèi)·貝克漢姆(David Beckham)所做的那樣。
現(xiàn)在想象一下使用AI驅(qū)動(dòng)的語(yǔ)言翻譯和語(yǔ)音合成進(jìn)行國(guó)際視頻會(huì)議的這些可能性。藝術(shù)家們可以創(chuàng)作出顛覆性和超現(xiàn)實(shí)主義的“Being John Malkovich”之類的杰作。
逝去的人也可以復(fù)活。最好的例子是歌手Hibari Misora,他在一年一度的日本新年電視活動(dòng)NHK Kōh(huán)aku Uta Gassen上表演了新歌,即使她30年前就去世了。在AI的幫助下重建視覺(jué),用Voaloid模擬語(yǔ)音。
但深度換臉(DeepFake)的新途徑是開放的。還記得ZAO嗎,這是一款深度換臉搞笑應(yīng)用程序:可以將普通人的臉換到名人身上,比如萊昂納多·迪卡普里奧(Leonardo DiCaprio)。
10三維肯·伯恩斯效應(yīng)
這款由西蒙·尼古拉斯(Simon Nikolaus)開發(fā)的模型可以將單幅圖像轉(zhuǎn)換為跟蹤鏡頭。該模型識(shí)別背景,模擬深度,用內(nèi)容敏感的修復(fù)來(lái)填充缺失的區(qū)域,添加新的角度。簡(jiǎn)而言之,只需一張圖像,你就可以生成空間3D視頻片段。
11ArtBreeder:不限量生成藝術(shù)品
喬爾·西蒙(Joel Simon)將BigGAN和其他模型應(yīng)用到用戶友好的Web應(yīng)用程序ArtBreeder中。你有許多不同的可能性來(lái)創(chuàng)建和修改面孔、風(fēng)景、通用圖像等。Artbreder同時(shí)在一個(gè)生動(dòng)的社區(qū)中成長(zhǎng)和發(fā)展,在這個(gè)社區(qū)中,用戶和開發(fā)者正在進(jìn)行持續(xù)的對(duì)話。
12DeOldify,黑白照片的脫舊彩色化
DeOldify是由詹森·安蒂科(Jason Antic)創(chuàng)建并發(fā)布的。這個(gè)項(xiàng)目的任務(wù)是對(duì)舊圖像和膠片進(jìn)行彩色化和修復(fù)。DeOldify使用通過(guò)兩個(gè)神經(jīng)網(wǎng)絡(luò)生成器和鑒別器之間的迭代交互作用(就像ArtBreeder中的那樣),生成性對(duì)抗性網(wǎng)絡(luò)。
但與上個(gè)模型不同的是,DeOldify中的圖像不會(huì)以其形式修改或生成。GAN的力量帶來(lái)了顏色,生成器將顏料應(yīng)用到它訓(xùn)練過(guò)的識(shí)別對(duì)象上,而鑒別器則試圖批評(píng)顏色的選擇。當(dāng)然,這些顏色不會(huì)重復(fù)原來(lái)的調(diào)色板。但它使歷史照片充滿活力,使它們與我們的時(shí)代格格不入。
13由AI提供動(dòng)力的VR
AI驅(qū)動(dòng)的VR是可能的。實(shí)際上,這是英偉達(dá)一年前發(fā)布的新聞,而且非常有前景。在這里,城市和視覺(jué)都是在谷歌街景上訓(xùn)練的,所以VR城市體驗(yàn)是通過(guò)深度學(xué)習(xí)模型重建的。
為了進(jìn)行培訓(xùn),研究團(tuán)隊(duì)在裝有cuDNN加速PyTorch深度學(xué)習(xí)框架的DGX-1上使用了NVIDIA Tesla V100 GPU,以及來(lái)自Cityscapes和Apolloscapes數(shù)據(jù)集的數(shù)千個(gè)視頻。你可以想象這種方法的所有潛力:“從頭開始”逼真的城市模擬,幫助城市發(fā)展,交通管理和物流,重塑視頻游戲前景。
14Runway ML
Runway是個(gè)終極應(yīng)用程序,它使用各種ML/DL模型來(lái)滿足不同的需求。它可以翻譯Image2Text,在圖像之后生成文本(使用GPT-2),檢測(cè)照片和視頻片段中的對(duì)象,還可以將各種模型組合成連鎖反應(yīng),而且是免費(fèi)的。
總結(jié)
以上是生活随笔為你收集整理的新AI时代序幕已拉开 不信请看这十四大例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 任正非重返达沃斯:科技向善 人类不用对人
- 下一篇: 马化腾今年不当面发红包了!腾讯取消节后逗