當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021年11月推荐阅读的10篇论文

發(fā)布時(shí)間：2024/3/7 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021年11月推荐阅读的10篇论文小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

隨著我們接近 2021 年底，arXiv 上的論文首次發(fā)表量增長似乎正在放緩：經(jīng)過幾年持續(xù)呈指數(shù)增長（每年 30-40%）后，看起來 2021 年的發(fā)表量 2020 年的排名僅略高于 2020 年（高出約 10%）。我們會看到 NeurIPS 和 ICLR 的強(qiáng)勁增長嗎？或者人工智能研究已經(jīng)成熟？

讓我們先從過去幾周的一些熱門新聞開始：

EMNLP將于 11 月 7 日至 11 日以線上線下混合形式舉行：同時(shí)在線和在多米尼加共和國蓬塔卡納舉行（這個(gè)地方你都沒聽說過吧，它可是海灘度假的最佳選擇之一，所以你懂的）。官方公開會議將很快在 ACL 選集中出版。

Deepmind 收購了 MuJoCo 并將其開源。MuJoCo 是機(jī)器人和 RL 中使用最廣泛的物理模擬軟件之一，而且它非常的貴。大型學(xué)校和科研機(jī)構(gòu)肯定有實(shí)力為他們的學(xué)生和教職員工購買許可證，但這下好了我們窮人也可以進(jìn)入邁過過這個(gè)門檻了。

微軟發(fā)布530B參數(shù)模型。但是它仍然只是一篇博客文章！他們聲稱這是迄今為止最大的monolithic transformer；你可能會問monolithic 是啥意思？這是一種使用所有參數(shù)的方式，與專家混合 (MoE) 類型的模型不同，例如 Wu Dao 的 1.75 萬億或 Switch Transformer 的萬億（在每個(gè)推理/訓(xùn)練步驟中只激活較小的子集）。雖然龐大的規(guī)?？雌饋矸浅Ａ钊穗y以置信，但我們必須等到他們更深入地分享才能夠了解細(xì)節(jié)。說到參數(shù)，我們現(xiàn)在還是關(guān)心他們的大小。

人工智能投資者 Nathan Benaich 和 Ian Hogarth 最近發(fā)布了《2021 年人工智能狀況報(bào)告》（www.stateof.ai）。它提供了有用的 AI 年度執(zhí)行摘要：研究、行業(yè)、人才、政治和預(yù)測。絕對值得一讀！

如果你想嘗試用于計(jì)算機(jī)視覺的基于注意力的大型架構(gòu)， Scenic [4] 最近發(fā)布一個(gè)代碼庫（包含大量樣板代碼和示例）來運(yùn)行用于計(jì)算機(jī)視覺的 JAX 模型，包括幾個(gè) Vision Transformer [6]、ViViT [7] 等等。

如果你正在使用圖像的生成模型，可以關(guān)注下VQGAN-CLIP，這是一個(gè)可以將自然語言句子轉(zhuǎn)換為圖像。

下面來看看論文:

Recursively Summarizing Books with Human Feedback

By OpenAI et al.

非常長的文檔摘要（例如書籍規(guī)模）對于機(jī)器來說是一項(xiàng)艱巨的任務(wù)，主要是因?yàn)樽⑨寯?shù)據(jù)非常耗時(shí)：要注釋一個(gè)示例，一個(gè)人需要閱讀一本書并得出它的摘要，這需要幾個(gè)小時(shí)甚至幾天。

長摘要可以（在某種程度上）成功地分解為分批式摘要任務(wù)，這些任務(wù)的注釋成本更低：將一本書分成幾塊，然后將每個(gè)塊總結(jié)成摘要。連接這些摘要并總結(jié)它們。遞歸地應(yīng)用此過程，直到達(dá)到所需的全書摘要長度。

我們來大致了解一下所涉及的數(shù)據(jù)的規(guī)模:使用了40本書，平均10萬字，大部分是小說，每個(gè)摘要子任務(wù)壓縮的比例約為5-10比1。

這一過程的結(jié)果仍然與人類的質(zhì)量相去甚遠(yuǎn)，只有5%的摘要達(dá)到了可比的質(zhì)量。有趣的是，模型大小似乎起著重要作用，因?yàn)樗麄儚淖畲蟮哪Ｐ椭锌偨Y(jié)出來的結(jié)論明顯優(yōu)于遵循同樣訓(xùn)練過程的較小模型。

這又是一次令人印象深刻的人工循環(huán)訓(xùn)練復(fù)雜大型模型的工作。距離產(chǎn)生“哇，這真是太棒了”的感覺還差得很遠(yuǎn)，但這是一個(gè)開始。接下來可能的研究方向是如何將其轉(zhuǎn)化為只需要很少或非常稀疏的人類注釋的場景？

Multitask Prompted Training Enables Zero-Shot Task Generalization

By Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach. et al.

驚人的大型模型研究主要限于擁有大量預(yù)算的公司。這是 Hugging Face BigScience Workshop 的第一篇論文，該論文提出合作方式使大規(guī)模 ML 對大學(xué)等小型機(jī)構(gòu)可行。這不是第一個(gè)開源的大型 GPT-3 樣模型（例如查看 GPT-J），但這肯定會產(chǎn)生影響。

他們談?wù)摰氖且粋€(gè) 110 億參數(shù)模型，完全開源并可通過 🤗Hugging Face 訪問。

model = AutoModelForSeq2SeqLM.from_pretrained("bigscience/T0pp")

你可以在GitHub repo上查看項(xiàng)目的所有細(xì)節(jié)，其中包括每個(gè)模型變體的訓(xùn)練的詳細(xì)描述。

該模型是一個(gè)t5風(fēng)格的1encoder-decoder Transformer(與GPT-3的僅限解碼器架構(gòu)不同)，它通過自回歸語言建模來預(yù)測下一個(gè)令牌。然而，現(xiàn)在訓(xùn)練集的管理更加細(xì)化:除了使用通用語言的大型網(wǎng)絡(luò)爬蟲，作者還建議使用帶有標(biāo)簽的自然語言提示的NLP任務(wù)。例如，對于帶有注釋的電影評論的句子分類任務(wù)，例如

The film had a superb plot, enhanced by the excellent work from the main actor. | Positive

將會被模板轉(zhuǎn)換為：

The film had a superb plot, enhanced by the excellent work from the main actor. It was <great/amazing/fantastic...>.

為了避免對一組模板進(jìn)行過度優(yōu)化，這些模板來自多個(gè)來源 (36) 以最大限度地提高多樣性，并為 NLP 任務(wù)提供數(shù)十個(gè)可多交替使用的模板。

即使比 GPT-3 小 16 倍，并且在訓(xùn)練期間沒有看到這些任務(wù)的訓(xùn)練集，T0 在大多數(shù)任務(wù)中也優(yōu)于 GPT-3 。

以下是主要結(jié)果的摘要。

你可能已經(jīng)注意到這種方法與 Google 幾周前發(fā)布的 FLAN [1] 非常相似。作者徹底解決了這項(xiàng)工作，T0 仍然有很多工作要做：T0 和 +/++ 變體具有相當(dāng)或更好的性能，同時(shí)小 10 倍（137B 與 11B 參數(shù)！！！）。

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

By Xiao Liu, Kaixuan Ji, Yicheng Fu et al.

continuous p-tuning/prompt-tuning/prefix-tuning 被提出還不到一年時(shí)間 [3]，它已經(jīng)成為許多任務(wù)中微調(diào)的可行替代方案和 ML 研究的一個(gè)蓬勃發(fā)展的方向。這是它最新的修訂版，顯示了 p-tuning 的優(yōu)勢。

p-tuning（也稱為prefix-tuning、soft 或continuous prompt-tuning）是一種在不改變預(yù)訓(xùn)練參數(shù)模型的情況下為特定任務(wù)微調(diào)預(yù)訓(xùn)練模型的技術(shù)。它包括通過幾個(gè)連續(xù)嵌入的梯度下降來學(xué)習(xí)Prompt ，這些嵌入是任何輸入的固定前綴。這已經(jīng)證明在使用自回歸語言建模訓(xùn)練的 Transformer 上表現(xiàn)非常好，并且參數(shù)效率更高（即，與完全微調(diào)相比，特定任務(wù)只需要學(xué)習(xí)非常少的參數(shù)）。

作者在這項(xiàng)工作中采取的進(jìn)一步措施是為Prompt 添加“深度”。也就是在一個(gè) Transformer 的不同層添加各種Prompt 。雖然這增加了可訓(xùn)練參數(shù)的數(shù)量，但它提高了性能，同時(shí)將總模型參數(shù)與可訓(xùn)練Prompt 的比率保持在 0.1-3% 的范圍內(nèi)。它們在層間相互獨(dú)立（它們在每一層獨(dú)立訓(xùn)練，而不是來自Transformer 的前向傳遞）。

希望在不久的將來看到 p-tuning 應(yīng)用于其他任務(wù)！

Exploring the Limits of Large Scale Pre-training

By Samira Abnar, Mostafa Dehghani, Behnam Neyshabur and Hanie Sedghi.

規(guī)模一直是機(jī)器學(xué)習(xí)圈子內(nèi)一個(gè)持續(xù)討論的話題。這絕對是該領(lǐng)域必須解決的重要問題之一：參數(shù)和數(shù)據(jù)將在多大的規(guī)模才夠用？

本文的主旨很簡單，“隨著我們提高上游（US）準(zhǔn)確性，下游（DS）任務(wù)的性能會飽和”。

他們研究了上游任務(wù)（例如大規(guī)模圖像標(biāo)簽）的預(yù)訓(xùn)練性能如何轉(zhuǎn)移到下游性能（例如鯨魚檢測）。然后對架構(gòu)和規(guī)模進(jìn)行很多的實(shí)驗(yàn)：“在Vision Transformers、MLP-Mixers 和 ResNet 上進(jìn)行 4800 次實(shí)驗(yàn)，參數(shù)數(shù)量從一千萬到一百億不等，數(shù)據(jù)使用的是最大規(guī)模的可用的圖像數(shù)據(jù)”🤑💸

以下的圖比較了上游性能，這意味著在預(yù)訓(xùn)練任務(wù)上的性能，以及在評估任務(wù)上的下游性能。它最終幾乎全面飽和。盡管如此，計(jì)算機(jī)視覺架構(gòu)之間的差異仍然非常有趣！

他們還探討了超參數(shù)選擇的影響：是否一些超參數(shù)對上游非常有益，但不能很好地轉(zhuǎn)化為下游？是的！他們在第 4 節(jié)深入探討了這種現(xiàn)象，并發(fā)現(xiàn)例如權(quán)重衰減是一個(gè)特別顯著的超參數(shù)，它對上游和下游的性能產(chǎn)生不同的影響。

在沒有人真正從頭開始訓(xùn)練模型而是選擇預(yù)先訓(xùn)練的模型來引導(dǎo)他們的應(yīng)用程序的情況下，這項(xiàng)研究是關(guān)鍵。這篇論文的內(nèi)容比幾段總結(jié)的要多得多，如果想深入了解，絕對值得一讀！

A Few More Examples May Be Worth Billions of Parameters

By Yuval Kirstain, Patrick Lewis, Sebastian Riedel and Omer Levy.

增加新標(biāo)注還是設(shè)計(jì)更大的模型?對于ML實(shí)踐者來說，在決定如何分配資源時(shí)，這可能是一個(gè)常見的困境:更大的預(yù)訓(xùn)練模型還是標(biāo)注更多的數(shù)據(jù)。視情況而定!

本文主要結(jié)論是，在NLP任務(wù)的上下文中，可伸縮參數(shù)始終能帶來性能改進(jìn)，然而，附加標(biāo)注的貢獻(xiàn)在很大程度上取決于任務(wù)。例如，在開放式問題回答數(shù)據(jù)集中，添加標(biāo)注并不能顯著提高性能，而在句子分類或抽取式問題回答中卻可以。下面是本文研究結(jié)果的最佳總結(jié)圖，人們可能會期望熱圖沿著對角線有一個(gè)梯度:大小和標(biāo)注都能提高性能，但事實(shí)并非如此。

SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing

By Junyi Ao, Rui Wang, Long Zhou et al.

NLP幾乎經(jīng)常被用作文本處理的同義詞，但自然語言比文本要多得多!口語使用了比文字更多的表達(dá)方式。這里有一種方法，通過利用過去幾年在NLP中非常成功的現(xiàn)有技術(shù)來對所有這些進(jìn)行建模。

通過向模型提供音頻和文本來共同學(xué)習(xí)文本和語音表征，并在一個(gè)自監(jiān)督設(shè)置中訓(xùn)練，其任務(wù)類似于應(yīng)用于聲音的雙向掩碼語言建模。但是將 MLM 應(yīng)用于音頻并不像文本那么簡單，它涉及將音頻預(yù)處理為合適的表示，稱為 log-Mel 濾波器，并在可以執(zhí)行分類任務(wù)的這種表示狀態(tài)中應(yīng)用量化目標(biāo)。重要的是，音頻和文本表征被組合并聯(lián)合輸入到模型，允許跨模態(tài)建模。

結(jié)果對于語音轉(zhuǎn)換 (VC)、自動語音識別 (ASR) 等某些任務(wù)來說是最先進(jìn)的，并且在應(yīng)用于文本到語音和語音到類 (SID) 時(shí)具有競爭力。

ADOP: Approximate Differentiable One-Pixel Point Rendering

By Darius Rückert, Linus Franke and Marc Stamminger.

與傳統(tǒng)技術(shù)相比，使用神經(jīng)網(wǎng)絡(luò)以更低的計(jì)算成本改進(jìn)渲染是非常令人興奮的，特別是在 VR 和 AR 領(lǐng)域緩慢但穩(wěn)定起飛的時(shí)候（你好 Meta）。畢竟深度學(xué)習(xí)可能在渲染元宇宙方面發(fā)揮關(guān)鍵作用……

渲染場景視圖（例如在視頻游戲或模擬中）是一個(gè)令人印象深刻的復(fù)雜過程：3D 對象可以通過多種方式定義，照明、遮擋、紋理、透明度、反射以復(fù)雜的方式交互，將內(nèi)容光柵化為像素網(wǎng)格等。對于低延遲應(yīng)用程序來說，強(qiáng)制執(zhí)行這些任務(wù)是不可能的；相反，程序必須聰明地不計(jì)算不需要計(jì)算的東西，例如被其他不透明對象遮擋的對象。

事實(shí)證明，渲染中涉及的大多數(shù)過程都可以由可微模塊執(zhí)行，這意味著在給定適當(dāng)?shù)膿p失函數(shù)的情況下，可以使用梯度下降來優(yōu)化它們。渲染場景的新視圖所涉及的主要模塊是光柵化器、渲染器和色調(diào)映射器，如下圖所示。

我不能說得太詳細(xì)，因?yàn)槔蠈?shí)說這個(gè)話題有點(diǎn)超出我的能力。他們提供的視頻演示還是相當(dāng)令人印象深刻，我迫不及待地期待這種技術(shù)被主流渲染技術(shù)廣泛采用。

其他

在人工智能的倫理方面，上個(gè)月還看到了幾篇有趣的論文

《Delphi: Towards Machine Ethics and Norms》讓機(jī)器了解是非的錯(cuò)綜復(fù)雜。雖然這項(xiàng)任務(wù)的復(fù)雜性在數(shù)千年來一直未能達(dá)成哲學(xué)共識，但這項(xiàng)工作是朝著將倫理判斷引入算法邁出的切實(shí)一步。

《Systematic Inequalities in Language Technology Performance across the World’s Languages 》介紹了一個(gè)評估語言技術(shù)“全球效用”的框架，以及它如何涵蓋世界各地的語言多樣性。

在信息檢索的主題上，用于密集文本檢索的《Adversarial Retriever-Ranker》是一種令人興奮的新方法，可以為 2 階段檢索設(shè)置的檢索器和排名器之間的交互建模，檢索器試圖用“似乎相關(guān)”但實(shí)際上并不相關(guān)的文檔愚弄排名者，而排名者試圖顯示最重要的相關(guān)性標(biāo)簽文檔。

論文引用:

[1] Finetuned Language Models Are Zero-Shot Learners. By Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu et al. 2021

[2] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. By Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman, 2019.

[3] Prefix-Tuning: Optimizing Continuous Prompts for Generation. By Xiang Lisa Li, Percy Liang, 2021.

[4] SCENIC: A JAX Library for Computer Vision Research and Beyond. By Mostafa Dehghani, Alexey Gritsenko, Anurag Arnab, Matthias Minderer, Yi Tay, 2021.

[6] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. By Alexey Dosovitskiy et al. 2020.

[7] ViViT: A Video Vision Transformer. By Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu?i?, Cordelia Schmid, 2021.

作者：Sergi Castella i Sapé

總結(jié)

以上是生活随笔為你收集整理的2021年11月推荐阅读的10篇论文的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

论文

上一篇： LIN协议简介
下一篇： 1×pbs缓冲液配方_【pbs缓冲液配制