當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

专家票选！ 2020 年度 10 篇人工智能经典论文（1-5）

發布時間：2025/3/12 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了专家票选！ 2020 年度 10 篇人工智能经典论文（1-5）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

By 超神經

內容提要：2020 年即將過去，雖然這一年全球都籠罩在疫情的陰影之下，許多事情也因疫情而停擺。但是，人工智能領域依然逆勢而上，取得了許多重大突破。在歲末之際，一起看看今年有哪些研究值得關注。

關鍵詞：2020 AI 論文盤點，機器學習

2020 年已經接近尾聲，這一年，盡管疫情對很多行業帶來了不小的沖擊，但科研工作者依然全心投入，僅在人工智能領域，我們就目睹了許多重大突破性的研究。

在今年的多場計算機領域頂級會議中，誕生了數千篇優秀論文。要逐一了解顯然有點不切實際，不如挑選一些「必看論文」，比如這些由業內頂尖科技公司、專家學者一同精心挑選的，今年 AI 領域里十篇經典論文，覆蓋自然語言處理、計算機視覺等方向。

這 10 篇 AI 領域經典論文分別是：

用于地震預警的分布式多傳感器機器學習方法?

A Distributed Multi-Sensor Machine Learning Approach to Earthquake Early Warning

通過高斯過程后驗進行快速采樣方法 Efficiently Sampling Functions from Gaussian Process Posteriors

邁向擬人化的開放域聊天機器人?Towards a Human-like Open-Domain Chatbot

語言模型是小樣本學習者?Language Models are Few-Shot Learners

超越準確度標準：使用 CheckList 對 NLP 模型進行行為測試?Beyond Accuracy: Behavioral Testing of NLP models with CheckList

EfficientDet：可擴展和高效的目標檢測?EfficientDet: Scalable and Efficient Object Detection

從野外圖像中對可能對稱可變形的 3D 物體進行無監督學習 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

用于大規模圖像識別的轉換器?An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale

AdaBelief 優化器：根據觀察梯度的 Blief 調整步長 AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

ALBERT：語言表示自監督學習的輕量 BERT ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

這十篇論文，幾乎每一篇都獲得了今年各大 AI 頂會的殊榮，亦或是在各自領域里取得了重大突破。

來看看有沒有你還沒來得及了解的論文？

論文地址：https://hal.archives-ouvertes.fr/hal-02373429v2/document

?論文?

《用于地震預警的分布式多傳感器機器學習方法》

?榮譽?

獲得?AAAI 2020 杰出論文獎

?摘要?

本項研究旨在通過機器學習提供地震預警系統（EEW）的準確性。此系統的設計核心目的為針對于中大型地震，在破壞性影響到達特定區域前探測出來。傳統的 EEW 方法是基于地震檢波器的，但由于傳統方法對地震運動速度敏感性的問題，導致不能準確地識別大地震。而另一方面，由于引進的高精度 GPS 站點對其產生的噪音數據會有傾向性，也無法準確識別中等強度的地震。此外，全球定位系統站點和地震儀可能會在不同的地點進行大量部署，產生大量的數據，從而影響響應的時間以及 EEW 系統的穩定性。

在實踐中，EEW 可以看作成機器學習領域中一個典型的分類問題：多傳感器的數據為輸入，地震的強烈程度為分類的輸出結果。

本文介紹了一種基于機器學習的分布式多傳感器地震預警系統（DMSEEW），該系統結合了兩種傳感器（GPS 站臺和地震儀）的數據進行探測。DMSEEW 是基于一種新的堆棧集成的方式，該方法已在實際的數據集中經過地理科學家們的驗證。該系統是基于地理層面分布式的基礎設施，以確保在響應時間和魯棒程度下，即使有部分基礎設施故障時依然保持高效計算性。實驗結果表明，DMSEEW 方法與傳統的地震預測方法和采用相對強度的組合傳感器（GPS 和地震儀）方法相比，具有更高的精確度。

DMSEEW 系統工作原理示意圖

?核心思想?

現有的早期地震預警（EEW）解決方案效果不佳：

地震儀由于對地面運動速度的敏感性而難以檢測大地震；
GPS 站容易產生大量嘈雜的數據，因此在檢測中級地震方面無效。

作者介紹了分布式多傳感器地震預警（DMSEEW）算法，該算法：

采用地震檢波器和 GPS 站的傳感器級預測(即正常活動、中等地震、大地震)；
使用詞袋表示匯總這些預測，并定義地震類別的最終預測。

此外，它們還引入了分布式網絡基礎設施，可以支持實時處理大量數據，并允許在災難情況下將數據重定向到其他處理數據中心。

?關鍵成就?

實驗表明，DMSEEW 算法在預測方面優于其他基線方法（即僅地震儀基線方法和采用相對強度規則的組合傳感器基線方法）：

對于大地震：

精度：76.7％和70.7％；
召回率：38.8％對34.1％；
F1 得分：51.6％，而45.0％。

對于中地震：

精度：100％和63.2％；
召回率：100％與85.7％；
F1 得分：100％和72.7％。

論文地址：https://arxiv.org/abs/2002.09309

?論文?

《通過高斯過程后驗進行快速采樣方法》

?榮譽?

獲得 ICML?2020 榮譽獎

?摘要?

在本文中，作者探索了從高斯過程（GP）后驗有效采樣的技術。在研究了使用傅立葉特征的樸素方法進行采樣和快速逼近策略的行為后，他們發現其中許多策略是互補的。因此，他們引入了一種方法，該方法結合了最好的不同采樣方法。

首先，他們建議將后驗分解為先驗和更新的總和；然后，他們將此想法與有關近似 GP 的文獻技術相結合，并獲得了易于使用的通用方法進行快速后驗采樣。

實驗表明，解耦的樣本路徑可以以更低的成本準確地表示 GP 的后驗。

?核心思想?

引入的從 GP 后驗采樣函數的方法基于以下觀察：

可以通過將高斯隨機變量與顯式校正項組合來隱式調節高斯隨機變量；
作者將這種直覺轉化為高斯過程，并建議將后驗分解為先驗和更新的總和；
在這種分解的基礎上，研究人員提出了一種有效的快速后驗采樣方法，該方法可以與稀疏近似值無縫配對以在訓練期間和測試時實現可伸縮性。

?關鍵成就?

本文介紹了一種易于使用的通用方法來從 GP 后驗過程進行采樣；

通過一系列實驗演示如何解耦樣本路徑：

避免替代采樣策略的許多缺點；
以更低的成本準確地代表 GP 后驗。例如，使用解耦采樣僅需 20 秒即可模擬一個眾所周知的生物神經元模型，而迭代方法則需要 10 個小時。

論文地址：https://arxiv.org/abs/2001.09977

?論文?

《邁向擬人化的開放域聊天機器人》

?摘要?

本文介紹了 Meena，一個多回合開放域聊天機器人，對從公共領域社交媒體對話中提取和過濾的數據進行了端到端的訓練。

這是一個包含 26 億個參數的端到端訓練的神經對話模型。我們證明，與現有的最先進 (State-Of-The-Art) 聊天機器人相比，Meena 可以進行更合理和更具體的對話。

我們針對開放域聊天機器人提出一項新的人工評估指標，即合理度和具體度平均值 (Sensibleness and Specificity Average, SSA)，可捕獲人類對話中基本但重要的屬性。值得注意的是，我們提出了一項適用于任何神經對話模型，而且與 SSA 高度相關的自動指標「困惑度 (Perplexity)」，該指標可捕捉類似于人類的多輪對話中的關鍵要素。

我們的實驗表明，困惑度與 SSA 之間有很強的相關性。困惑度最佳的 Meena，在 SSA 上得分很高（多回合評估為 72％），這表明如果我們能夠更好地優化困惑度，則 SSA 可能達到人類水平的 SSA，即 86％。此外，完整版的 Meena（具有過濾機制和調諧解碼功能）的 SSA 得分為 79％，比我們評估的現有聊天機器人的絕對 SSA 得分高 23％。?

Meena? 對話示例

?核心思想?

盡管近年來取得了一些進展，但是開放域聊天機器人仍然存在明顯的弱點：它們的響應通常沒有意義，或者過于模糊或籠統。

為了解決這些問題，Google 研究團隊引入了 Meena（一種具有 26 億參數的生成式會話模型），該模型針對從公共社交媒體對話中提取的 400 億個單詞進行了訓練：

Meena 基于帶有演進式變壓器（ET）的 seq2seq 模型構建，該模型包括 1 個 ET 編碼器塊和 13 個 ET 解碼器塊。

在多回合會話中訓練模型，輸入序列包括上下文的所有回合（最多 7 個），輸出序列為響應。

為了評測諸如 Meena 之類的開放域聊天機器人的質量，研究人員引入了一種新的人類評估指標，稱為敏感度和敏感度平均值（SSA），它可以測量聊天機器人的兩個基本方面：

有道理
具體化

論文地址：https://arxiv.org/pdf/2005.14165v2.pdf

?論文?

《語言模型是 Few-Shot?學習者》（OpenAI）

?榮譽?

獲得 NeurIPS 2020 最佳論文。該論文介紹了 GPT-3 模型，在今年引起人工智能界，尤其是 NLP 領域的熱議。GPT-3 的規模和語言能力是驚人的，它可以虛構、開發程序代碼、編寫深思熟慮的商業備忘錄、總結文本等。雖然對其的質疑也一直存在，但它確實展示了 NLP 領域的巨大進步。

?摘要?

我們訓練了 GPT-3（一種具備 1750 億個參數的自回歸語言模型，比之前的任何非稀疏語言模型多 10 倍），并在少許測試中測試了其性能。

對于所有的任務，應用 GPT-3 無需進行任何梯度更新或微調，而僅需要經過與模型的文本交互指定任務和少許演示便可。GPT-3 在許多 NLP 數據集上均具備出色的性能，包括翻譯、問題解答和完形填空任務，以及一些須要即時推理或領域適應的任務。

?核心思想?

GPT-3 主要聚焦于更通用的 NLP 模型，解決當前 BERT 類模型的兩個缺點：

對領域內有標簽數據的過度依賴：雖然有了預訓練 + 精調的兩段式框架，但仍是少不了必定量的領域標注數據，不然很難取得不錯的效果，而標注數據的成本又是很高的；

對于領域數據分布的過擬合：在精調階段，由于領域數據有限，模型只能擬合訓練數據分布，若是數據較少的話就可能形成過擬合，導致模型的泛化能力降低，更加沒法應用到其余領域。

所以 GPT-3 的主要目標是，用更少的領域數據、且不通過精調步驟去解決問題。

論文地址：https://arxiv.org/abs/2005.04118

?論文?

《超越準確度標準：NLP 模型的 CheckList 行為測試》

?榮譽?

ACL 2020 最佳論文獎

?摘要?

雖然度量支持精度是評價泛化的主要方法，但它往往高估了 NLP 模型的性能，而用于評估模型的替代方法要么側重于單個任務，要么側重于特定的行為。

受軟件工程中行為測試原理的啟發，我們介紹了一種用于測試 NLP 模型的不確定任務的方法。檢查表包括一個通用語言能力和測試類型的矩陣，有助于全面的測試構思，以及快速生成一個包含大量不同測試用例的軟件工具。

我們用三個任務的測試來說明檢查表的效用，識別商業和最先進模型中的關鍵故障。在一項用戶研究中，一個負責商業情緒分析模型的團隊在一個經過廣泛測試的模型中發現了新的、可操作的錯誤。在另一個用戶研究中，使用 CheckList 的 NLP 實踐者創建了兩倍多的測試，發現的 bug 幾乎是沒有檢查表的用戶的三倍。

基于某商業情緒分析模型，進行模型否定能力的測試

?核心思想?

現有的 NLP 模型評估方法存在許多重大缺陷，比如可能性能高估、匯總統計數據對弄清 NLP 模型出了哪些問題以及如何修復這些錯誤沒有太大幫助，以及缺乏全面性等。

為了解決此問題，研究團隊引入了 CheckList，這是一種用于評估 NLP 模型的新方法，其受軟件工程中的行為測試的啟發：

CheckList 為用戶提供了要測試的語言功能列表，例如詞匯，命名實體識別和否定；
然后，為了將潛在的能力故障分解為特定的行為，CheckList 建議使用不同的測試類型，例如在某些擾動情況下的預測不變性或定向期望測試。
潛在測試的結構為矩陣，功能為行，測試類型為列。

?關鍵成就?

使用 CheckList 對最新模型進行的評估表明，即使根據準確性結果認為某些 NLP 任務是「已解決」的，但行為測試還是強調了許多需要改進的地方。

將 CheckList 應用于經過廣泛測試的面向公眾的系統進行情感分析，結果表明該方法：

幫助識別和測試了以前未考慮的功能；
對先前考慮的功能進行更徹底和全面的測試；
幫助發現更多可操作的 bug。

限于篇幅，本期我們僅推送以上 5 篇，請大家先慢慢研讀。下期我們將繼續分享 2020 年值得關注的 AI 論文，敬請期待。

參考資料：

https://www.topbots.com/ai-machine-learning-research-papers-2020/#ai-paper-2020-1

—— 完 ——

總結

以上是生活随笔為你收集整理的专家票选！ 2020 年度 10 篇人工智能经典论文（1-5）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：打印更无缝：微软改善Win11中通用打印
下一篇： Win7提示文件太大无法放入回收站怎么办