當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EMNLP 2019中和BERT相关的一些论文介绍

發(fā)布時(shí)間：2025/3/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 EMNLP 2019中和BERT相关的一些论文介绍小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

點(diǎn)擊上方“AI公園”，關(guān)注公眾號，選擇加“星標(biāo)“或“置頂”

作者：Pavel Gladkov

編譯：ronghuaiyang

導(dǎo)讀

EMNLP 2019中一些和BERT相關(guān)的很不錯(cuò)的論文。

BERT at EMNLP 2019

自然語言處理的經(jīng)驗(yàn)方法會議(EMNLP)于 2019 年 11 月 3 日至 11 月 7 日在香港舉行。有很多有趣的論文，但我想強(qiáng)調(diào)一下 BERT 的論文。

揭露 BERT 的黑暗秘密?

http://arxiv.org/abs/1908.08593

在這篇論文中，來自馬薩諸塞大學(xué)洛厄爾分校的研究人員研究了 BERT 的 layer 和 head 的自我注意機(jī)制。用到的數(shù)據(jù)集是 GLUE 任務(wù)的子集：MRPC、STS-B、SST-2、QQP、RTE、QNLI、MNLI。

實(shí)驗(yàn)：

BERT 中特定關(guān)系的 head
fine-tuning 之后自注意力模式的改變
語言特征的注意力機(jī)制
Token-to-token 的注意力機(jī)制
關(guān)閉 head 的自注意力機(jī)制

用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的典型的自注意類型。每個(gè)圖像上的兩個(gè)軸表示輸入樣本的BERT tokens，顏色表示絕對注意力權(quán)重(深色表示更大的權(quán)重)。前三種類型最可能與預(yù)訓(xùn)練的語言模型相關(guān)，而后兩種類型可能編碼語義和語法信息。

有趣的發(fā)現(xiàn)：

BERT 模型明顯參數(shù)化過度。在不同的 head 中有限的注意力模式是有重復(fù)的。因此，禁用某些 head 并不會導(dǎo)致準(zhǔn)確率下降，而是會提高性能。

很有趣。這就是為什么 distilling BERT 是有意義的。

可視化和理解 BERT 的有效性

http://arxiv.org/abs/1908.05620

這是另一篇關(guān)于用微軟研究院的很酷的可視化工具來理解 BERT 的性能的論文。

在四個(gè)數(shù)據(jù)集上從頭開始訓(xùn)練的訓(xùn)練損失曲面(頂部)和對BERT進(jìn)行finetune的訓(xùn)練損失曲面(底部)。與隨機(jī)初始化相比，預(yù)訓(xùn)練可以得到更泛化的優(yōu)化，并簡化了優(yōu)化過程。

上圖清晰地展示了本文的主要思想：

finetune BERT 的訓(xùn)練損失沿優(yōu)化方向呈單調(diào)遞減趨勢，有利于優(yōu)化，加速訓(xùn)練收斂
finetune 過程對過擬合更加魯棒
預(yù)訓(xùn)練模型可以獲得更平更寬的優(yōu)化值

所以，不要從頭開始訓(xùn)練 BERT 完成你的任務(wù)。finetune 更好。

用耐心的知識蒸餾來對 BERT 模型進(jìn)行壓縮

http://arxiv.org/abs/1908.09355

微軟還有一篇關(guān)于知識蒸餾的論文。提出了一種通過耐心的知識蒸餾將大 BERT 模型壓縮成淺 BERT 模型的新方法。該方法聲稱是第一個(gè)使用蒸餾的方法，不僅用于輸出分布，而且用于“教師”的隱藏狀態(tài)。此外，“student”只嘗試模仿[CLS] token 的表示形式。與其它蒸餾方法相比，BERT-PKD 比 DistilBERT 好，但比 TinyBERT 差。

Sentence-BERT：使用 Siamese BERT-Networks 來得到句子嵌入

http://arxiv.org/abs/1908.10084

Code: https://github.com/UKPLab/sentence-transformers

問題如下：BERT 的嵌入是否適合語義相似度搜索？本文證明了 BERT 可以開箱即用的將句子映射到一個(gè)向量空間，而這個(gè)向量空間不太適合用于余弦相似度等常見的相似度度量。其性能比一般的 GloVe 嵌入差。為了克服這一缺點(diǎn)，提出了 Sentence-BERT (SBERT)。SBERT 在 siamese 或 triplet 網(wǎng)絡(luò)架構(gòu)中對 BERT 進(jìn)行了 finetune。

具有分類目標(biāo)函數(shù)的SBERT架構(gòu)，例如用于對SNLI數(shù)據(jù)集進(jìn)行finetune。兩個(gè)BERT網(wǎng)絡(luò)都有各自的權(quán)值(siamese網(wǎng)絡(luò)結(jié)構(gòu))。

Beto, Bentz, Becas: BERT 驚人的跨語言有效性

http://arxiv.org/abs/1904.09077

本文探討了多語言 BERT 作為一種零距離語言遷移模型的跨語言潛能。

長話短說：BERT 有效地學(xué)習(xí)了良好的多語言表示，在各種任務(wù)中具有很強(qiáng)的跨語言零樣本的遷移性能。

—END—

英文原文：https://towardsdatascience.com/bert-at-emnlp-2019-46db6c2e59b2

備注：公眾號菜單包含了整理了一本AI小抄，非常適合在通勤路上用學(xué)習(xí)。

往期精彩回顧2019年公眾號文章精選適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)在線手冊AI基礎(chǔ)下載（第一部分）備注：加入本站微信群或者qq群，請回復(fù)“加群”加入知識星球（4500+用戶，ID：92416895），請回復(fù)“知識星球”

喜歡文章，點(diǎn)個(gè)在看

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的EMNLP 2019中和BERT相关的一些论文介绍的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：关于最近实践 Bert 的一些坑
下一篇：周志华教授：如何做研究与写论文？（附PP