當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】Sentence-T5｜谷歌提出文本表示新SOTA

發布時間：2025/3/12 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】Sentence-T5｜谷歌提出文本表示新SOTA 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

卷友們好，我是rumor。

又出新SOTA了。

每個新SOTA，都意味著下一位要卷得更辛苦、調得更猛烈一些。

而這個SOTA還出在我一直關注的文本表示賽道。

這次谷歌用了T5，把STS的平均分從82.52提到了83.34。

題目：Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models 地址：https://arxiv.org/abs/2108.08877

乍一看題目還是蠻期待的，用T5做文本表示，會不會玩出什么花來？不過讀了之后有些略微調低期望，這篇文章提出了三種從T5拿文本表示的方法：

直接拿encoder輸出的第一個token表示，類似CLS，但由于T5在訓練時就沒有CLS，實驗下來效果不好就去掉了

直接拿encoder輸出的mean pooling，實驗下來發現這個最好，不精調的時候也比BERT的好很多，作者分析是T5更多的訓練數據+預訓練時加了下游任務

拿decoder的第一個輸出，直接用不太好，但精調后還可以，作者分析是這個相當于加了attention pooling

精調時采用了雙塔結構，比以往不同的是多加了一層投影和L2-Norm。

在精調時參考了對比學習的NT-Xent loss，但輸入的都是有監督數據（不用對比學習的數據增強了，直接輸入有標注的正負樣本）。

同時提出了tow-stage的精調：先用網上挖掘的20億弱監督QA對精調，再用NLI精調（entailment=1，contradict=0）。

除了在STS上對比之外，還在SentEval上進行了實驗（給表示加一個分類器，測試embedding遷移到下游任務的效果）：

最終加了其他數據的Sentence-T5以不到1個點的微弱優勢登上SOTA。

同時作者驗證了尺寸越大效果越好：

看得出來我這篇文章寫得不是很快樂，主要是感覺新意比較有限，懶窮的我可能也不會去挖20億的數據，也沒有卡去跑更大的模型。

不過！還是有幾點啟發可以分享一下：

作者加了Proj&Norm層但是沒有做消融實驗，這個對效果究竟有多少影響呢？

作者在對比loss上的temperature=100，之前無監督對比學習的T都很小，這是為什么呢？

最近一直在想prompt learning怎么用來做文本表示，而T5天生就契合prompt，既然作者證實了decoder精調后是可以用的，那是不是。。。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯黃海廣老師《機器學習課程》課件合集本站qq群851320808，加入微信群請掃碼：

以上是生活随笔為你收集整理的【NLP】Sentence-T5｜谷歌提出文本表示新SOTA的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。