【学术相关】2020年AI领域有哪些让人惊艳的研究?
?煉丹筆記干貨?
時晴,煉丹小仙女
???前段時間,Google Brain科學(xué)家Barret Zoph表示,他們設(shè)計了一個名叫「Switch Transformer」的簡化稀疏架構(gòu),將語言模型的參數(shù)量擴展至 1.6 萬億同時帶來了諸多評測上的提升。
????2020年除了Google Brain帶來的這篇驚艷的Switch Transformers,當(dāng)然還有其他的一些讓人眼前一亮的研究,本文為大家節(jié)選了自然語言處理、遷移學(xué)習(xí)等領(lǐng)域的一些研究成果。
Switch Transformer
Switch Transformers 模型的創(chuàng)新:
1)Switch Transformer在網(wǎng)絡(luò)結(jié)構(gòu)上最大的改進是Sparse routing的稀疏結(jié)構(gòu),相比于OpenAI在GPT-3里所使用的Sparse Attention,需要用到稀疏算子而很難發(fā)揮GPU、TPU硬件性能的問題。Switch Transformer不需要稀疏算子,可以更好的適應(yīng)GPU、TPU等硬件。
2)Switch Transformer雖然有1.6萬億參數(shù),但通過Sparse routing的改進,每輪迭代只會觸發(fā)部分Expert的計算,而每個token也只會路由給一個Expert,所以對算力的需求并沒有隨著參數(shù)量的增加而大幅增長,使得這個模型更加容易訓(xùn)練。
3)數(shù)據(jù)并行、模型并行、Expert并行的并行策略設(shè)計,在MoE網(wǎng)絡(luò)結(jié)構(gòu)上能夠獲得更低的通信開銷,提高并行的效率。
有興趣的可以讀一下《Google Brain:從不廢話,直接扔大》一文。
Image Transformers
????雖然Transformer在自然語言處理方面取得了巨大的成功,但在計算機視覺領(lǐng)域還是不太行的樣子,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)仍然在CV領(lǐng)域占據(jù)著主導(dǎo)地位。盡管在理論上,Transformer不如RNN牛B,但當(dāng)數(shù)據(jù)規(guī)模足夠大時,與 CNN 和 RNN 相比,Transformer 的歸納偏置更少,效果上也開始超越其他模型的表現(xiàn)。
????Image GPT (Chen et al., 2020)、Vision Transformer (ViT,Dosovitskiy et al., 2020)、Image Processing Transformer(IPT,Chen et al., 2020)各放異彩,有的采用GPT-2思想直接從像素進行預(yù)訓(xùn)練,有的通過對比損失預(yù)訓(xùn)練的方式實現(xiàn)了新的SOTA,有的將圖像重塑為被視為「token」。
????未來,Transformer在計算機視覺中可能會變得越來越有意思。Transformer將特別適用于有足夠算力和數(shù)據(jù)的預(yù)訓(xùn)練場景。在數(shù)據(jù)規(guī)模較小時,CNNs將仍然是一種可行的方法和一個強有力的Baseline。
Few-shot Learning?
????少樣本學(xué)習(xí)可以將一個模型應(yīng)用于各種場景的各種任務(wù),但每次根據(jù)新任務(wù)進行全局的模型更新是奢侈的,最好的方式是進行模型的局部更新,2020年在少樣本學(xué)習(xí)方面使用Adapter(Houlsby et al., 2019、Pfeiffer et al., 2020a、üstün et al., 2020),或者使用加入稀疏參數(shù)向量(Guo et al., 2020),以及僅修改偏差值(Ben-Zaken et al., 2020)等方法。
Contrastive Learning
????
????對比學(xué)習(xí)(Contrastive Learning)這類方法則是通過將數(shù)據(jù)分別與正例樣本和負例樣本在特征空間進行對比,來學(xué)習(xí)樣本的特征表示。Contrastive Methods主要的難點在于如何構(gòu)造正負樣本。
??? 2020年進一步改善了這種通用框架,SimCLR(Chen et al., 2020)、SwAV(Caron et al., 2020)、Momentum Contrast(He et al., 2020)等方法,有的定義了增強型實例的對比損失,有的試圖確保大量且一致的樣本對集合,有的利用在線聚類等。
????同時,Zhao et al. (2020)發(fā)現(xiàn)數(shù)據(jù)增強在對比學(xué)習(xí)中是至關(guān)重要的。對比學(xué)習(xí)與 masked語言建模相結(jié)合的方式,能讓模型具有更豐富、更魯棒的特征表征,同時它可以幫助解決模型異常值以及罕見的句法和語義現(xiàn)象帶來的問題,。
Multilinguality
????多語言模型在2020年的諸多研究中也頗有亮點,包括多語言數(shù)據(jù)集:
SQuAD: XQuAD (Artetxe et al., 2020), MLQA (Lewis et al., 2020), FQuAD (d'Hoffschmidt et al., 2020)
Natural Questions: TyDiQA (Clark et al., 2020), MKQA (Longpre et al., 2020)
MNLI: OCNLI (Hu et al., 2020), FarsTail (Amirkhani et al., 2020)
the CoNLL-09 dataset: X-SRL (Daza and Frank, 2020)
the CNN/Daily Mail dataset: MLSUM (Scialom et al., 2020)
????BERT模型的諸多迭代創(chuàng)新中,有包含100多種語言的強大模型,包括AraBERT (Antoun et al., 2020)、IndoBERT (Wilie et al., 2020)、XML-R (Conneau et al., 2020)、RemBERT (Chung et al., 2020)、InfoXLM (Chi et al., 2020)等。
????此外,《The State and Fate of Linguistic Diversity(Joshi et al., 2020)》一文,強調(diào)了使用英語之外語言的緊迫性。《Decolonising Speech and Language Technology (Bird, 2020)》一文指出了不要將語言社區(qū)及數(shù)據(jù)視為商品。
Reinforcement Learning
????Agent57(Badia et al., 2020)首次在 57 款 Atari 游戲上超過人類,同時也為深度強化學(xué)習(xí)領(lǐng)域建立了baseline。
????在游戲方面,強化學(xué)習(xí)的另一個里程碑是 Schrittwieser 等人開發(fā)的 MuZero,它能預(yù)測環(huán)境各個方面,而環(huán)境對精確的規(guī)劃非常重要。在沒有任何游戲動態(tài)知識的情況下,MuZero 在雅達利上達到了 SOTA 性能,在圍棋、國際象棋和日本象棋上表現(xiàn)也很出色。
? ? 對強化學(xué)習(xí)有興趣的同學(xué)可以看一下煉丹筆記出品的《從零單排強化學(xué)習(xí)》系列。
—END—
參考內(nèi)容
1、Google Brain:從不廢話,直接扔大
2、https://ruder.io/research-highlights-2020/
總結(jié)
以上是生活随笔為你收集整理的【学术相关】2020年AI领域有哪些让人惊艳的研究?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习基础】Python机器学习入门
- 下一篇: 【论文解读】AAAI21最佳论文Info