日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

数据不足,如何进行迁移学习?

發(fā)布時間:2024/8/23 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据不足,如何进行迁移学习? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

現在,人工智能的發(fā)展處于跳躍式階段,我們也對AI在大型數據集的應用進展感到吃驚。更重要的是,那些我們沒有跟蹤的數十億張照片或餐廳的評論并沒有被遺漏掉:遷移學習技術讓收集數據變得更加“容易”。另外,得益于PyTorch框架、fast.ai應用程序庫以及FloydHub公司,小團隊或者是個別開發(fā)人員也能輕松的應用這些方法。

本文要講的例子就是ULMFiT:Jeremy Howard和Sebastian Ruder在fast.ai展示了如何用幾百個標記準確的對電影評論進行分類。除此之外,還有一個在通用英語文本語料庫中訓練的模型。

除了英語文本資料庫和標記對評論進行分類外,fast.ai還有一個小技巧,它擁有大量特定領域的文本:10萬多個樣本評論,來展示普通英語和電影評論之間的區(qū)別。這引發(fā)了我們的思考:至少得需要多少數據,才足以彌合訓練示例和通用語言模型之間的差距?

這并不是一個特別愚蠢的問題。Frame可以幫助Zendesk,Intercom和Slack等規(guī)模性公司標記、評價和理解與客戶的對話。也就是說,?“只要有足夠的對話,我們就可以手動評價”和“我們有足夠的數據從頭訓練一個模型”,這二者之間有很大的差距。僅僅幾十個標簽和幾千條相關對話,這能夠做什么?

事實證明,這非常有用。在本文中,我們將使用相同的電影評論數據集來證明:即便是只有少部分的數據,數據遷移依然可以有效。更加詳細的代碼請參考ULMFiT。

遷移什么?

深度神經網絡是當前最新人工智能背后的關鍵技術,比如理解圖像、音頻或文本。深度神經網絡的核心是它由層(“深度”)組成,每個層都將輸入轉換為更接近網絡訓練答案的新的表示。

我們通常會抱怨,不了解神經網絡的中間層到底發(fā)生了什么……其實,它們通常被設計為更加清晰、可解釋的角色!比如:很多語言模型利用嵌入層將單個單詞或短語進行分類,將具有相似含義的單詞或短語放在一起。舉個例子來說,這將有助于翻譯AI在需要使用“杰出”(illustrious)這個詞的時候,會根據經驗選擇使用“偉大”(great)。

現在變得更有趣了:一個“知道”“illustrious = great”的層不僅有利于翻譯,還可以學習情緒估計,將不同的觀點聚集起來。這就是遷移學習,也就是說模型在一個任務中學習到的東西可以對另外一個學習任務有幫助。事實上,這個特殊的例子特別受歡迎,以至于改進的通用語言模型已經成為一個全新的領域!

?

遷移學習不僅有利于任務之間的轉移:它可以幫助一般模型在特定環(huán)境中更好的工作。例如:一個通用的英語情緒模型或許可以預測電影評論,但是可能不知道“緊張、緊張的驚悚”是件好事。

這就是Jeremy和Sebastian Rudder的通用語言模型微調文本分類(ULMFiT)的用武之地。他們對一個包含100,000個IMDB評論的通用語言模型做了改進。即便是只標記幾百個單詞,其余的單詞也能夠幫助AI學習審稿人經常用“杰出”或“很好”代替“緊張、緊繃”等,這很好的彌補了數據不足的缺陷。結果的準確度令我們感到驚訝:僅僅有500個標記示例,分類的準確度卻高達94%。

未被標記的數據最少需要多少?

ULMFiT為NLP提供了一個有力的依據,使模型能夠更有效的利用較小的數據集。在這項研究中,我們專注于回答以下問題:

如果我們對標記示例的預算特別少,那么,得需要收集多少未標記的數據才能有效的使用遷移學習?

為了解決這個問題,我們使用了大量固定的域數據池,并改變了標記示例的數量,來看看模型應該如何改進。將標記示例的數量保持不變,并改變未標記的其他域示例的數量。也就是說,我們的實驗包括:

1.語言建模(變量)

2.語言任務(不變量)

我們的語言任務、情感分類和原始的ULMFiT論文中的任務相同,另外,也使用了IMDB電影評論數據集。在實驗中,標記情緒訓練樣本的數量保持在500個,500個樣本可以用于很多小領域的研究,并且,有助于強調不同語言模型的差異提升能力。

對于語言建模,我們改變了可用于語言任務的三種語言模型的域數據量:

?僅限ULM:這是使用Wikitext103預訓練英語語言模型

?僅限域(domain):僅在IMDB數據上的基于域訓練的模型。

?ULM +域(domain):ULMFiT模型

訓練這些模型的計算量特別大,最大的域訓練可能需要幾天的時間才能完成。為了加快訓練速度和有效的執(zhí)行網格搜索,我們使用了FloydHub。

結果

經過大約50個小時GPU處理,結果如下:

從實驗結果,我們可得知:

?使用33%的域數據,就可以獲得75%數據的UMLFiT性能。

?令人驚訝的是,ULM + 2,000域示例的語言任務預測準確率約為85%。

?


原文鏈接
本文為云棲社區(qū)原創(chuàng)內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的数据不足,如何进行迁移学习?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。