當(dāng)前位置：首頁(yè) > 运维知识 > windows >内容正文

windows

1.2 万人朝圣 CVPR，华人学者夺最佳论文！Sora 舵手火爆演讲成大型追星现场

發(fā)布時(shí)間：2024/6/21 windows 61 传统文化

生活随笔收集整理的這篇文章主要介紹了 1.2 万人朝圣 CVPR，华人学者夺最佳论文！Sora 舵手火爆演讲成大型追星现场小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一年一度 CVPR 最佳論文放榜了！剛剛結(jié)束開(kāi)幕演講上，公布了 2 篇最佳論文、2 篇最佳學(xué)生論文、榮譽(yù)提名等獎(jiǎng)項(xiàng)。值得一提的是，今年北大上交摘得最佳論文提名桂冠，上科大奪得最佳學(xué)生論文。

2024 年 CVPR 會(huì)議將在美國(guó)西雅圖拉開(kāi)帷幕，根據(jù)官方的公告，本屆會(huì)議已經(jīng)成為 CVPR 歷史上規(guī)模最大、參與人數(shù)最多的一屆，截至 6 月 19 日，現(xiàn)場(chǎng)參會(huì)人數(shù)已超過(guò) 1.2 萬(wàn)人。

此外，近年來(lái)的論文接收數(shù)量也水漲船高，共有 11532 篇提交論文，錄用率為 23.58%，比去年的 9155 篇論文多出了 2000 多篇。

由于開(kāi)年 Sora 模型帶起的視頻生成的熱潮，今年 CVPR 接收論文數(shù)量最多的領(lǐng)域就是「圖像視頻的合成與生成」，緊隨其后的兩個(gè)領(lǐng)域分別是「多視角和傳感器的 3D」以及「人體：面部、軀體、姿勢(shì)、手勢(shì)和移動(dòng)」。

從會(huì)議現(xiàn)場(chǎng)的照片中，也能肉眼感受到 CVPR 的熱烈程度。

揭秘 Sora 訓(xùn)練技巧

Sora 研究團(tuán)隊(duì)的負(fù)責(zé)人 Tim Brooks 也在研討會(huì)上發(fā)表了演講，揭秘了 Sora 模型的一些訓(xùn)練技巧以及視頻生成模型未來(lái)的新功能。

演講中，Brooks 表示自己看好 Transformer 架構(gòu)的可擴(kuò)展性，如果算力足夠，我們有望借此實(shí)現(xiàn)世界模擬器。

此外他也分享了一些訓(xùn)練模型的心得，比如不要為了某個(gè)特定任務(wù)去調(diào)整模型架構(gòu)，而是先考慮讓數(shù)據(jù)適應(yīng)任務(wù)。

比如，Sora 在訓(xùn)練時(shí)的技巧就多與數(shù)據(jù)有關(guān)，包括使用不同比例的圖像和視頻，以及搭配字幕訓(xùn)練。

有推特網(wǎng)友表示，Brooks 的演講堪比追星現(xiàn)場(chǎng)，都差點(diǎn)擠不進(jìn)去。

當(dāng)然，最重磅的還是 CVPR 在今天凌晨的大會(huì)開(kāi)幕演講上。正式官宣了 2024 年最佳論文、最佳學(xué)生論文等大獎(jiǎng)的得主。

該獎(jiǎng)項(xiàng)每年都會(huì)表彰在計(jì)算機(jī)視覺(jué)、人工智能（AI）、機(jī)器學(xué)習(xí)（ML）、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)（AR / VR / MR）、深度學(xué)習(xí)等領(lǐng)域的頂尖研究。

今年，CVPR 從超過(guò) 11,500 篇論文提交中，選出了以下 10 篇最佳論文 —— 是 2023 年的兩倍之多。

最佳論文

題目：Generative Image Dynamics

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk

機(jī)構(gòu)：谷歌研究院

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了一種從單張靜態(tài)圖片中建模自然振蕩動(dòng)態(tài)效果的新方法。該方法能夠從單張圖片生成照片般真實(shí)的動(dòng)畫，并顯著優(yōu)于現(xiàn)有的基準(zhǔn)方法。此外，他們還展示了在多個(gè)后續(xù)應(yīng)用中的潛力，例如創(chuàng)建無(wú)縫循環(huán)或交互式圖像動(dòng)態(tài)效果。

題目：Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

機(jī)構(gòu)：，加利福尼亞大學(xué)圣地亞哥分校，谷歌研究院，南加利福尼亞大學(xué)，劍橋大學(xué)，布蘭迪斯大學(xué)

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了第一個(gè)詳盡的用于圖像生成的人類反饋數(shù)據(jù)集。具體來(lái)說(shuō)，他們?cè)O(shè)計(jì)并訓(xùn)練了一個(gè)多模態(tài) Transformer 來(lái)預(yù)測(cè)這些詳盡的人類反饋，并展示了一些改進(jìn)圖像生成的實(shí)例。

這篇論文的共同一作分別是華南農(nóng)業(yè)大學(xué)校友 Youwei Liang、清華校友 Junfeng He、武大及港中文校友 Gang Li。

榮譽(yù)提名

題目：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi

機(jī)構(gòu)：北京大學(xué)，上海交通大學(xué)，東京大學(xué)，國(guó)立情報(bào)學(xué)研究所

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

題目：pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann

機(jī)構(gòu)：麻省理工學(xué)院，西門菲莎大學(xué)，多倫多大學(xué)

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳學(xué)生論文

題目：Mip-Splatting: Alias-free 3D Gaussian Splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

機(jī)構(gòu)：圖賓根大學(xué)，圖賓根 AI 中心，上海科技大學(xué)，捷克理工大學(xué)

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了一種通過(guò) 3D 平滑濾波器和 2D Mip 濾波器改進(jìn) 3D 高斯?jié)姙R（3DGS）的全新方法 Mip-Splatting，用于在任何尺度上進(jìn)行無(wú)鋸齒渲染。該方法在分布外測(cè)試場(chǎng)景中顯著優(yōu)于當(dāng)前最先進(jìn)的方法，當(dāng)測(cè)試采樣率與訓(xùn)練采樣率不同的時(shí)候，能夠更好地適應(yīng)分布外的相機(jī)姿態(tài)和縮放因子。

值得一提的是，論文的三位一作 Zehao Yu、Anpei Chen（陳安沛）、Binbin Huang，都是上海科技大學(xué)在讀或畢業(yè)生。

題目：BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, and Yu Su

機(jī)構(gòu)：俄亥俄州立大學(xué)，微軟研究院，加利福尼亞大學(xué)爾灣分校，倫斯勒理工學(xué)院

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了 TREEOFLIFE-10M 和 BIOCLIP，分別是一個(gè)大規(guī)模多樣化的生物圖像數(shù)據(jù)集和一個(gè)用于生命之樹(shù)的基礎(chǔ)模型。研究表明，BIOCLIP 是一個(gè)強(qiáng)大的細(xì)粒度生物分類器，在零樣本和少樣本設(shè)置中有著出色的表現(xiàn)。

榮譽(yù)提名

題目：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer, Florian Bernard

機(jī)構(gòu)：波恩大學(xué)

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

題目：Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

機(jī)構(gòu)：北京大學(xué)，華為諾亞方舟實(shí)驗(yàn)室

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

題目：Objects as Volumes: A Stochastic Geometry View of Opaque Solids

作者：Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas

機(jī)構(gòu)：卡內(nèi)基梅隆大學(xué)

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf

題目：Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang, Saeed Khorram, Li Fuxin

機(jī)構(gòu)：俄勒岡州立大學(xué)

論文地址：https://openaccess.thecvf.com/ content / CVPR2024 / papers / Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

此外，CVPR 的主辦方電氣和電子工程師學(xué)會(huì)計(jì)算機(jī)協(xié)會(huì)（IEEE Computer Society, CS），也正式宣布了模式分析和機(jī)器智能技術(shù)社區(qū)（TCPAMI）的獎(jiǎng)項(xiàng)。

Longuet-Higgins 獎(jiǎng)

該獎(jiǎng)項(xiàng)授予那些經(jīng)得起時(shí)間檢驗(yàn)的論文，2024 年的 Longuet-Higgins 獎(jiǎng)表彰了 2014 年在 CVPR 上發(fā)表的最具影響力的論文。

2024 年獲獎(jiǎng)?wù)撸篟ich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（2014）

作者：Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

機(jī)構(gòu)：加利福尼亞大學(xué)伯克利分校，ICSI

論文地址：https://www.cv-foundation.org/ openaccess / content_cvpr_2014 / papers / Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

在這項(xiàng)工作中，作者通過(guò)（1）標(biāo)記圖像中不合理或與文本不匹配的區(qū)域，以及（2）注釋文本提示中被誤表示或缺失的詞語(yǔ)，來(lái)豐富反饋信號(hào)。

具體來(lái)說(shuō)，他們?cè)?1.8 萬(wàn)張生成圖像（RichHF-18K）上收集了豐富的人類反饋，并訓(xùn)練了一個(gè)多模態(tài) Transformer 來(lái)自動(dòng)預(yù)測(cè)這些反饋。

實(shí)驗(yàn)結(jié)果展示了預(yù)測(cè)的豐富人類反饋可以用于改進(jìn)圖像生成，例如，通過(guò)選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)來(lái)微調(diào)生成模型，或者通過(guò)創(chuàng)建帶有預(yù)測(cè)熱圖的掩碼來(lái)修補(bǔ)問(wèn)題區(qū)域。

值得注意的是，這些改進(jìn)不僅適用于生成反饋數(shù)據(jù)的模型（如 Stable Diffusion 變體），還可以推廣到其他模型上（如 Muse）。

年輕研究員獎(jiǎng)

該獎(jiǎng)項(xiàng)表彰在獲得博士學(xué)位七年內(nèi)對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域作出杰出研究貢獻(xiàn)的一到兩名研究人員。

2024 年獲獎(jiǎng)?wù)撸篈ngjoo Kanazawa, Carl Vondrick

Angjoo Kanazawa 是加利福尼亞大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系的助理教授，領(lǐng)導(dǎo) BAIR 下的 Kanazawa AI Research（KAIR）實(shí)驗(yàn)室，并在 Wonder Dynamics 的顧問(wèn)委員會(huì)任職。

此前，她在馬里蘭大學(xué)帕克分校完成了計(jì)算機(jī)科學(xué)博士學(xué)位，導(dǎo)師是 David Jacobs。之后，來(lái)到 UC 伯克利的 BAIR 做博士后研究，導(dǎo)師是 Jitendra Malik、Alexei A. Efros 和 Trevor Darrell。此外，還曾在 Google Research 擔(dān)任研究科學(xué)家。

眾所周知，我們生活在一個(gè)動(dòng)態(tài)的 3D 世界中，人和動(dòng)物不斷與環(huán)境互動(dòng)。那么，我們?cè)撊绾螛?gòu)建一個(gè)系統(tǒng)，從日常的照片和視頻中捕捉、感知并理解這個(gè) 4D 世界？又該如何從圖像和視頻的觀測(cè)中學(xué)習(xí) 4D 世界的先驗(yàn)知識(shí)呢？

Angjoo Kanazawa 的研究方向涵蓋了計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)，并致力于回答上面這些問(wèn)題。

Carl Vondrick 是哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系的教授，研究方向主要集中在計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)及其應(yīng)用。

此前，他于 2011 年在加利福尼亞大學(xué)爾灣分校獲得學(xué)士學(xué)位，導(dǎo)師是 Deva Ramanan。之后，于 2017 年在 MIT 獲得博士學(xué)位，導(dǎo)師是 Antonio Torralba。此外，還曾在谷歌的機(jī)器感知團(tuán)隊(duì)擔(dān)任研究科學(xué)家，并在 Cruise 擔(dān)任訪問(wèn)研究員。

具體來(lái)說(shuō)，他的研究通過(guò)訓(xùn)練機(jī)器觀察和與環(huán)境互動(dòng)，旨在創(chuàng)建穩(wěn)健且多功能的感知模型。實(shí)驗(yàn)室經(jīng)常研究如何利用大量未標(biāo)記數(shù)據(jù)進(jìn)行任務(wù)和模態(tài)遷移。其他研究方向包括場(chǎng)景動(dòng)態(tài)、聲音和語(yǔ)言、可解釋模型以及機(jī)器人感知等。

Thomas Huang 紀(jì)念獎(jiǎng)

該獎(jiǎng)項(xiàng)于 2020 年設(shè)立，以紀(jì)念 Thomas S. Huang，他是其時(shí)代計(jì)算機(jī)視覺(jué)、模式識(shí)別和人機(jī)交互領(lǐng)域的杰出人物。該獎(jiǎng)項(xiàng)旨在表彰和致敬在計(jì)算機(jī)視覺(jué)社區(qū)中長(zhǎng)期服務(wù)、研究和指導(dǎo)的杰出個(gè)人。

2024 年獲獎(jiǎng)?wù)撸篈ndrea Vedaldi

Andrea Vedaldi 是牛津大學(xué)工程科學(xué)系計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)專業(yè)的教授，同時(shí)擔(dān)任 VGG 小組的聯(lián)合負(fù)責(zé)人。

他主要研究計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)方法，目標(biāo)是自動(dòng)理解圖像和視頻的內(nèi)容，并且?guī)缀醪恍枰斯けO(jiān)督，特別關(guān)注語(yǔ)義和 3D 幾何。

此前，他在帕多瓦大學(xué)獲得學(xué)士學(xué)位，并在加利福尼亞大學(xué)洛杉磯分校獲得碩士和博士學(xué)位。

參考資料：

https://cvpr.thecvf.com/Conferences/2024/News/Awards
https://x.com/skalskip92/status/1803181265581121752

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，所有文章均包含本聲明。

總結(jié)

以上是生活随笔為你收集整理的1.2 万人朝圣 CVPR，华人学者夺最佳论文！Sora 舵手火爆演讲成大型追星现场的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：三星 W25 折叠屏手机被曝 10 月发
下一篇：面世 25 年后：Key 社经典恋爱冒险

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

windows

1.2 万人朝圣 CVPR，华人学者夺最佳论文！Sora 舵手火爆演讲成大型追星现场

揭秘 Sora 訓(xùn)練技巧

最佳論文

榮譽(yù)提名

最佳學(xué)生論文

榮譽(yù)提名

Longuet-Higgins 獎(jiǎng)

年輕研究員獎(jiǎng)

Thomas Huang 紀(jì)念獎(jiǎng)

總結(jié)