AutoML之图数据与表数据
當前AutoML平臺離“萬能”還有一段距離
AutoML 成為熱門技術(shù)方向,同時也面臨著一些難題,這些難題有很大一方面來自于?不同數(shù)據(jù)之間解決問題手段的可遷移性 / 可復制性,解決不同問題的手段相似性或者可遷移性 / 可復制性越高,自動化越容易,反之越難。
目前 AutoML 產(chǎn)品的目標數(shù)據(jù)主要有兩類,一類是圖像數(shù)據(jù),一類是表數(shù)據(jù)。
圖像數(shù)據(jù)
深度學習取得的最大的成功來自于圖像領(lǐng)域,相比于傳統(tǒng)圖像分析處理做法最核心的點在于“自動”學習層次化特征,以前的圖像分析都是需要人工設(shè)計很多種從原始像素提取特征的方法,需要很多專家經(jīng)驗,深度學習很好地解決了這個問題,使得特征可學習,將人工特征設(shè)計轉(zhuǎn)變成了人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,對于圖像領(lǐng)域的自動機器學習,很自然的一個想法就是,是否能進一步將人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計里面的“人工”去掉。
谷歌、微軟、第四范式等針對圖像數(shù)據(jù)的 AutoML 產(chǎn)品的核心點是自動化圖像領(lǐng)域的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,他們針對的主要數(shù)據(jù)是圖像數(shù)據(jù)。圖像數(shù)據(jù)之間的相似性較大,原始輸入都是像素,問題解決方案可遷移性可復用性也較大,使得 AutoML 在圖像數(shù)據(jù)上相對更加容易落地。
表數(shù)據(jù)
與圖像數(shù)據(jù)原始輸入都是像素不同的是,表數(shù)據(jù)是抽象數(shù)據(jù),不同的表數(shù)據(jù)之間沒有很強的相似性,不同表數(shù)據(jù)各列的含義千差萬別,另外表數(shù)據(jù)還跟實際業(yè)務(wù)密切相關(guān),其中有很多時序性、概念漂移、數(shù)據(jù)包含噪聲等等不同于傳統(tǒng)機器學習的特性需要解決,因此表數(shù)據(jù)問題上 AutoML 落地的難度也會大很多,僅僅是自動神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計是遠遠不夠的。
目前谷歌、微軟在這方面成果相對較少,MIT 的自動特征是在這類問題上一個很不錯的嘗試,他們主要解決的問題是數(shù)據(jù)分布在多個表中,如何自動化地將這多個表的數(shù)據(jù)轉(zhuǎn)化成最終機器學習所需要的單個表數(shù)據(jù),但是除了這個問題,實際表數(shù)據(jù)的 AutoML 落地還需要解決更多的難題。在國內(nèi),第四范式在這類問題上是最早有成熟產(chǎn)品落地的,比如模型自帶自動化特征的線性分形分類器,自動特征組合工具 FeatureGo,自動時序樹模型工具 HE-TreeNet 等等,今年也會有更多更強大的自動化機器學習產(chǎn)品發(fā)布。
除此之外,涂威威還補充道:對于自然語言處理中的知識自動提取等也需要自動化的機器學習技術(shù),這是目前很多 AutoML 產(chǎn)品所不涉及的。
總結(jié)
以上是生活随笔為你收集整理的AutoML之图数据与表数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: fasttext的异步随机梯度下降导致结
- 下一篇: batch size 越大,学习率也要越