當前位置：首頁 >

深度学习核心技术精讲100篇（三十七）-利用Contrastive Learning对抗数据噪声：对比学习在微博场景的实践

發布時間：2025/4/5 52 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习核心技术精讲100篇（三十七）-利用Contrastive Learning对抗数据噪声：对比学习在微博场景的实践小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

對比學習最近一年比較火，它的應用范圍，已經從最初的圖像領域，逐步拓展到了自然語言處理以及多模態等很多其它領域。本文介紹微博在自然語言處理以及多模態方面，應用對比學習的經驗。

后文將要介紹的兩個模型：CD-TOM和W-CLIP，CD-TOM是關于純文本方面的對比學習模型；W-CLIP是關于<文本，圖片>多模態數據方面的對比學習模型。兩個模型的具體技術方案并不復雜，應該說主要受到了SimCLR和CLIP模型的啟發（當然，其實CLIP模型明顯也受到SimCLR模型的影響）。從后面介紹可以看出，文本類模型CD-TOM基本是圖像領域里的SimCLR模型應用到文本領域做的改造，<文本，圖片>類模型W-CLIP在結構上基本就是CLIP模型，只是做了一些小改動。在模型結構上，其實目前大多數對比學習系統都差不太多，很多模型差異來自于訓練數據的正例、負例構造方法或損失函數定義上。我們這里提到的兩個模型，和SimCLR或CLIP相比，模型結構差異不大，主要差異體現在采用的訓練數據特性方面的差異。

我們知道，SimCLR是個純自監督的任務，通過對無標注圖片做不同的圖像增強來構造訓練數據的正例；而CLIP盡管叫做對比學習，它其實是個有監督的訓練過程，它的正例來自于經過各種挖掘手段凈化過的，比較干凈的4億<圖片描述，圖片>數據對。我們后文將要提到的兩個模型采用的訓練數據正例，可以理解為處于兩者之間：既不像SimCLR，屬于純粹自監督的任務，也不像CLIP那樣使用的是比較干凈的數據對，而是以包含大量噪音的數據作為對比學習模型的訓練正例。

我當時比較關心的其實是下列問題的答案：如果我們有海量的數據對<數據A,數

總結

以上是生活随笔為你收集整理的深度学习核心技术精讲100篇（三十七）-利用Contrastive Learning对抗数据噪声：对比学习在微博场景的实践的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度学习核心技术精讲100篇（三十六）-
下一篇：深度学习核心技术精讲100篇（三十五）-

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

深度学习核心技术精讲100篇（三十七）-利用Contrastive Learning对抗数据噪声：对比学习在微博场景的实践

前言

總結