2021年11月推荐阅读的10篇论文
隨著我們接近 2021 年底,arXiv 上的論文首次發(fā)表量增長似乎正在放緩:經(jīng)過幾年持續(xù)呈指數(shù)增長(每年 30-40%)后,看起來 2021 年的發(fā)表量 2020 年的排名僅略高于 2020 年(高出約 10%)。 我們會看到 NeurIPS 和 ICLR 的強(qiáng)勁增長嗎? 或者人工智能研究已經(jīng)成熟?
讓我們先從過去幾周的一些熱門新聞開始:
EMNLP將于 11 月 7 日至 11 日以線上線下混合形式舉行:同時(shí)在線和在多米尼加共和國蓬塔卡納舉行(這個(gè)地方你都沒聽說過吧,它可是海灘度假的最佳選擇之一,所以你懂的)。官方公開會議將很快在 ACL 選集中出版。
Deepmind 收購了 MuJoCo 并將其開源。MuJoCo 是機(jī)器人和 RL 中使用最廣泛的物理模擬軟件之一,而且它非常的貴。大型學(xué)校和科研機(jī)構(gòu)肯定有實(shí)力為他們的學(xué)生和教職員工購買許可證,但這下好了我們窮人也可以進(jìn)入邁過過這個(gè)門檻了。
微軟發(fā)布530B參數(shù)模型。但是它仍然只是一篇博客文章!他們聲稱這是迄今為止最大的monolithic transformer;你可能會問monolithic 是啥意思?這是一種使用所有參數(shù)的方式,與專家混合 (MoE) 類型的模型不同,例如 Wu Dao 的 1.75 萬億或 Switch Transformer 的萬億(在每個(gè)推理/訓(xùn)練步驟中只激活較小的子集)。雖然龐大的規(guī)??雌饋矸浅A钊穗y以置信,但我們必須等到他們更深入地分享才能夠了解細(xì)節(jié)。說到參數(shù),我們現(xiàn)在還是關(guān)心他們的大小。
人工智能投資者 Nathan Benaich 和 Ian Hogarth 最近發(fā)布了《2021 年人工智能狀況報(bào)告》(www.stateof.ai)。它提供了有用的 AI 年度執(zhí)行摘要:研究、行業(yè)、人才、政治和預(yù)測。絕對值得一讀!
如果你想嘗試用于計(jì)算機(jī)視覺的基于注意力的大型架構(gòu), Scenic [4] 最近發(fā)布一個(gè)代碼庫(包含大量樣板代碼和示例)來運(yùn)行用于計(jì)算機(jī)視覺的 JAX 模型,包括幾個(gè) Vision Transformer [6]、ViViT [7] 等等。
如果你正在使用圖像的生成模型,可以關(guān)注下VQGAN-CLIP,這是一個(gè)可以將自然語言句子轉(zhuǎn)換為圖像。
下面來看看論文:
Recursively Summarizing Books with Human Feedback
By OpenAI et al.
非常長的文檔摘要(例如書籍規(guī)模)對于機(jī)器來說是一項(xiàng)艱巨的任務(wù),主要是因?yàn)樽⑨寯?shù)據(jù)非常耗時(shí):要注釋一個(gè)示例,一個(gè)人需要閱讀一本書并得出它的摘要, 這需要幾個(gè)小時(shí)甚至幾天。
長摘要可以(在某種程度上)成功地分解為分批式摘要任務(wù),這些任務(wù)的注釋成本更低:將一本書分成幾塊,然后將每個(gè)塊總結(jié)成摘要。 連接這些摘要并總結(jié)它們。 遞歸地應(yīng)用此過程,直到達(dá)到所需的全書摘要長度。
我們來大致了解一下所涉及的數(shù)據(jù)的規(guī)模:使用了40本書,平均10萬字,大部分是小說,每個(gè)摘要子任務(wù)壓縮的比例約為5-10比1。
這一過程的結(jié)果仍然與人類的質(zhì)量相去甚遠(yuǎn),只有5%的摘要達(dá)到了可比的質(zhì)量。有趣的是,模型大小似乎起著重要作用,因?yàn)樗麄儚淖畲蟮哪P椭锌偨Y(jié)出來的結(jié)論明顯優(yōu)于遵循同樣訓(xùn)練過程的較小模型。
這又是一次令人印象深刻的人工循環(huán)訓(xùn)練復(fù)雜大型模型的工作。 距離產(chǎn)生“哇,這真是太棒了”的感覺還差得很遠(yuǎn),但這是一個(gè)開始。 接下來可能的研究方向是如何將其轉(zhuǎn)化為只需要很少或非常稀疏的人類注釋的場景?
Multitask Prompted Training Enables Zero-Shot Task Generalization
By Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach. et al.
驚人的大型模型研究主要限于擁有大量預(yù)算的公司。 這是 Hugging Face BigScience Workshop 的第一篇論文,該論文提出合作方式使大規(guī)模 ML 對大學(xué)等小型機(jī)構(gòu)可行。 這不是第一個(gè)開源的大型 GPT-3 樣模型(例如查看 GPT-J),但這肯定會產(chǎn)生影響。
他們談?wù)摰氖且粋€(gè) 110 億參數(shù)模型,完全開源并可通過 🤗Hugging Face 訪問。
model = AutoModelForSeq2SeqLM.from_pretrained("bigscience/T0pp")你可以在GitHub repo上查看項(xiàng)目的所有細(xì)節(jié),其中包括每個(gè)模型變體的訓(xùn)練的詳細(xì)描述。
該模型是一個(gè)t5風(fēng)格的1encoder-decoder Transformer(與GPT-3的僅限解碼器架構(gòu)不同),它通過自回歸語言建模來預(yù)測下一個(gè)令牌。然而,現(xiàn)在訓(xùn)練集的管理更加細(xì)化:除了使用通用語言的大型網(wǎng)絡(luò)爬蟲,作者還建議使用帶有標(biāo)簽的自然語言提示的NLP任務(wù)。例如,對于帶有注釋的電影評論的句子分類任務(wù),例如
The film had a superb plot, enhanced by the excellent work from the main actor. | Positive將會被模板轉(zhuǎn)換為:
The film had a superb plot, enhanced by the excellent work from the main actor. It was <great/amazing/fantastic...>.為了避免對一組模板進(jìn)行過度優(yōu)化,這些模板來自多個(gè)來源 (36) 以最大限度地提高多樣性,并為 NLP 任務(wù)提供數(shù)十個(gè)可多交替使用的模板。
即使比 GPT-3 小 16 倍,并且在訓(xùn)練期間沒有看到這些任務(wù)的訓(xùn)練集,T0 在大多數(shù)任務(wù)中也優(yōu)于 GPT-3 。
以下是主要結(jié)果的摘要。
你可能已經(jīng)注意到這種方法與 Google 幾周前發(fā)布的 FLAN [1] 非常相似。 作者徹底解決了這項(xiàng)工作,T0 仍然有很多工作要做:T0 和 +/++ 變體具有相當(dāng)或更好的性能,同時(shí)小 10 倍(137B 與 11B 參數(shù)!!!)。
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
By Xiao Liu, Kaixuan Ji, Yicheng Fu et al.
continuous p-tuning/prompt-tuning/prefix-tuning 被提出還不到一年時(shí)間 [3],它已經(jīng)成為許多任務(wù)中微調(diào)的可行替代方案和 ML 研究的一個(gè)蓬勃發(fā)展的方向。這是它最新的修訂版,顯示了 p-tuning 的優(yōu)勢。
p-tuning(也稱為prefix-tuning、soft 或continuous prompt-tuning)是一種在不改變預(yù)訓(xùn)練參數(shù)模型的情況下為特定任務(wù)微調(diào)預(yù)訓(xùn)練模型的技術(shù)。它包括通過幾個(gè)連續(xù)嵌入的梯度下降來學(xué)習(xí)Prompt ,這些嵌入是任何輸入的固定前綴。這已經(jīng)證明在使用自回歸語言建模訓(xùn)練的 Transformer 上表現(xiàn)非常好,并且參數(shù)效率更高(即,與完全微調(diào)相比,特定任務(wù)只需要學(xué)習(xí)非常少的參數(shù))。
作者在這項(xiàng)工作中采取的進(jìn)一步措施是為Prompt 添加“深度”。也就是在一個(gè) Transformer 的不同層添加各種Prompt 。雖然這增加了可訓(xùn)練參數(shù)的數(shù)量,但它提高了性能,同時(shí)將總模型參數(shù)與可訓(xùn)練Prompt 的比率保持在 0.1-3% 的范圍內(nèi)。它們在層間相互獨(dú)立(它們在每一層獨(dú)立訓(xùn)練,而不是來自Transformer 的前向傳遞)。
希望在不久的將來看到 p-tuning 應(yīng)用于其他任務(wù)!
Exploring the Limits of Large Scale Pre-training
By Samira Abnar, Mostafa Dehghani, Behnam Neyshabur and Hanie Sedghi.
規(guī)模一直是機(jī)器學(xué)習(xí)圈子內(nèi)一個(gè)持續(xù)討論的話題。這絕對是該領(lǐng)域必須解決的重要問題之一:參數(shù)和數(shù)據(jù)將在多大的規(guī)模才夠用?
本文的主旨很簡單,“隨著我們提高上游(US)準(zhǔn)確性,下游(DS)任務(wù)的性能會飽和”。
他們研究了上游任務(wù)(例如大規(guī)模圖像標(biāo)簽)的預(yù)訓(xùn)練性能如何轉(zhuǎn)移到下游性能(例如鯨魚檢測)。然后對架構(gòu)和規(guī)模進(jìn)行很多的實(shí)驗(yàn):“在Vision Transformers、MLP-Mixers 和 ResNet 上進(jìn)行 4800 次實(shí)驗(yàn),參數(shù)數(shù)量從一千萬到一百億不等,數(shù)據(jù)使用的是最大規(guī)模的可用的圖像數(shù)據(jù)”🤑💸
以下的圖比較了上游性能,這意味著在預(yù)訓(xùn)練任務(wù)上的性能,以及在評估任務(wù)上的下游性能。它最終幾乎全面飽和。盡管如此,計(jì)算機(jī)視覺架構(gòu)之間的差異仍然非常有趣!
他們還探討了超參數(shù)選擇的影響:是否一些超參數(shù)對上游非常有益,但不能很好地轉(zhuǎn)化為下游? 是的! 他們在第 4 節(jié)深入探討了這種現(xiàn)象,并發(fā)現(xiàn)例如權(quán)重衰減是一個(gè)特別顯著的超參數(shù),它對上游和下游的性能產(chǎn)生不同的影響。
在沒有人真正從頭開始訓(xùn)練模型而是選擇預(yù)先訓(xùn)練的模型來引導(dǎo)他們的應(yīng)用程序的情況下,這項(xiàng)研究是關(guān)鍵。 這篇論文的內(nèi)容比幾段總結(jié)的要多得多,如果想深入了解,絕對值得一讀!
A Few More Examples May Be Worth Billions of Parameters
By Yuval Kirstain, Patrick Lewis, Sebastian Riedel and Omer Levy.
增加新標(biāo)注還是設(shè)計(jì)更大的模型?對于ML實(shí)踐者來說,在決定如何分配資源時(shí),這可能是一個(gè)常見的困境:更大的預(yù)訓(xùn)練模型還是標(biāo)注更多的數(shù)據(jù)。視情況而定!
本文主要結(jié)論是,在NLP任務(wù)的上下文中,可伸縮參數(shù)始終能帶來性能改進(jìn),然而,附加標(biāo)注的貢獻(xiàn)在很大程度上取決于任務(wù)。例如,在開放式問題回答數(shù)據(jù)集中,添加標(biāo)注并不能顯著提高性能,而在句子分類或抽取式問題回答中卻可以。下面是本文研究結(jié)果的最佳總結(jié)圖,人們可能會期望熱圖沿著對角線有一個(gè)梯度:大小和標(biāo)注都能提高性能,但事實(shí)并非如此。
SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing
By Junyi Ao, Rui Wang, Long Zhou et al.
NLP幾乎經(jīng)常被用作文本處理的同義詞,但自然語言比文本要多得多!口語使用了比文字更多的表達(dá)方式。這里有一種方法,通過利用過去幾年在NLP中非常成功的現(xiàn)有技術(shù)來對所有這些進(jìn)行建模。
通過向模型提供音頻和文本來共同學(xué)習(xí)文本和語音表征,并在一個(gè)自監(jiān)督設(shè)置中訓(xùn)練,其任務(wù)類似于應(yīng)用于聲音的雙向掩碼語言建模。 但是將 MLM 應(yīng)用于音頻并不像文本那么簡單,它涉及將音頻預(yù)處理為合適的表示,稱為 log-Mel 濾波器,并在可以執(zhí)行分類任務(wù)的這種表示狀態(tài)中應(yīng)用量化目標(biāo)。 重要的是,音頻和文本表征被組合并聯(lián)合輸入到模型,允許跨模態(tài)建模。
結(jié)果對于語音轉(zhuǎn)換 (VC)、自動語音識別 (ASR) 等某些任務(wù)來說是最先進(jìn)的,并且在應(yīng)用于文本到語音和語音到類 (SID) 時(shí)具有競爭力。
ADOP: Approximate Differentiable One-Pixel Point Rendering
By Darius Rückert, Linus Franke and Marc Stamminger.
與傳統(tǒng)技術(shù)相比,使用神經(jīng)網(wǎng)絡(luò)以更低的計(jì)算成本改進(jìn)渲染是非常令人興奮的,特別是在 VR 和 AR 領(lǐng)域緩慢但穩(wěn)定起飛的時(shí)候(你好 Meta)。畢竟深度學(xué)習(xí)可能在渲染元宇宙方面發(fā)揮關(guān)鍵作用……
渲染場景視圖(例如在視頻游戲或模擬中)是一個(gè)令人印象深刻的復(fù)雜過程:3D 對象可以通過多種方式定義,照明、遮擋、紋理、透明度、反射以復(fù)雜的方式交互,將內(nèi)容光柵化為像素網(wǎng)格等。對于低延遲應(yīng)用程序來說,強(qiáng)制執(zhí)行這些任務(wù)是不可能的;相反,程序必須聰明地不計(jì)算不需要計(jì)算的東西,例如被其他不透明對象遮擋的對象。
事實(shí)證明,渲染中涉及的大多數(shù)過程都可以由可微模塊執(zhí)行,這意味著在給定適當(dāng)?shù)膿p失函數(shù)的情況下,可以使用梯度下降來優(yōu)化它們。渲染場景的新視圖所涉及的主要模塊是光柵化器、渲染器和色調(diào)映射器,如下圖所示。
我不能說得太詳細(xì),因?yàn)槔蠈?shí)說這個(gè)話題有點(diǎn)超出我的能力。 他們提供的視頻演示還是相當(dāng)令人印象深刻,我迫不及待地期待這種技術(shù)被主流渲染技術(shù)廣泛采用。
其他
在人工智能的倫理方面,上個(gè)月還看到了幾篇有趣的論文
《Delphi: Towards Machine Ethics and Norms》 讓機(jī)器了解是非的錯(cuò)綜復(fù)雜。 雖然這項(xiàng)任務(wù)的復(fù)雜性在數(shù)千年來一直未能達(dá)成哲學(xué)共識,但這項(xiàng)工作是朝著將倫理判斷引入算法邁出的切實(shí)一步。
《Systematic Inequalities in Language Technology Performance across the World’s Languages 》介紹了一個(gè)評估語言技術(shù)“全球效用”的框架,以及它如何涵蓋世界各地的語言多樣性。
在信息檢索的主題上,用于密集文本檢索的 《Adversarial Retriever-Ranker》 是一種令人興奮的新方法,可以為 2 階段檢索設(shè)置的檢索器和排名器之間的交互建模,檢索器試圖用“似乎相關(guān)”但實(shí)際上并不相關(guān)的文檔愚弄排名者,而排名者試圖顯示最重要的相關(guān)性標(biāo)簽文檔。
論文引用:
[1] Finetuned Language Models Are Zero-Shot Learners. By Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu et al. 2021
[2] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. By Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman, 2019.
[3] Prefix-Tuning: Optimizing Continuous Prompts for Generation. By Xiang Lisa Li, Percy Liang, 2021.
[4] SCENIC: A JAX Library for Computer Vision Research and Beyond. By Mostafa Dehghani, Alexey Gritsenko, Anurag Arnab, Matthias Minderer, Yi Tay, 2021.
[6] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. By Alexey Dosovitskiy et al. 2020.
[7] ViViT: A Video Vision Transformer. By Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu?i?, Cordelia Schmid, 2021.
作者:Sergi Castella i Sapé
總結(jié)
以上是生活随笔為你收集整理的2021年11月推荐阅读的10篇论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LIN协议简介
- 下一篇: 1×pbs缓冲液配方_【pbs缓冲液配制