當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

表数据比图数据更难处理

發布時間：2025/3/19 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了表数据比图数据更难处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目前 AutoML 產品的目標數據主要有兩類，一類是圖像數據，一類是表數據。

圖像數據

深度學習取得的最大的成功來自于圖像領域，相比于傳統圖像分析處理做法最核心的點在于“自動”學習層次化特征，以前的圖像分析都是需要人工設計很多種從原始像素提取特征的方法，需要很多專家經驗，深度學習很好地解決了這個問題，使得特征可學習，將人工特征設計轉變成了人工神經網絡結構設計，對于圖像領域的自動機器學習，很自然的一個想法就是，是否能進一步將人工神經網絡結構設計里面的“人工”去掉。

谷歌、微軟、第四范式等針對圖像數據的 AutoML 產品的核心點是自動化圖像領域的神經網絡結構設計，他們針對的主要數據是圖像數據。圖像數據之間的相似性較大，原始輸入都是像素，問題解決方案可遷移性可復用性也較大，使得 AutoML 在圖像數據上相對更加容易落地。

表數據

與圖像數據原始輸入都是像素不同的是，表數據是抽象數據，不同的表數據之間沒有很強的相似性，不同表數據各列的含義千差萬別，另外表數據還跟實際業務密切相關，其中有很多時序性、概念漂移、數據包含噪聲等等不同于傳統機器學習的特性需要解決，因此表數據問題上 AutoML 落地的難度也會大很多，僅僅是自動神經網絡結構設計是遠遠不夠的。

目前谷歌、微軟在這方面成果相對較少，MIT 的自動特征是在這類問題上一個很不錯的嘗試，他們主要解決的問題是數據分布在多個表中，如何自動化地將這多個表的數據轉化成最終機器學習所需要的單個表數據，但是除了這個問題，實際表數據的 AutoML 落地還需要解決更多的難題。在國內，第四范式在這類問題上是最早有成熟產品落地的，比如模型自帶自動化特征的線性分形分類器，自動特征組合工具 FeatureGo，自動時序樹模型工具 HE-TreeNet 等等，今年也會有更多更強大的自動化機器學習產品發布。

除此之外，涂威威還補充道：對于自然語言處理中的知識自動提取等也需要自動化的機器學習技術，這是目前很多 AutoML 產品所不涉及的。

總結

以上是生活随笔為你收集整理的表数据比图数据更难处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。