基于“小数据”的机器学习
機器學習作為人工智能的一種最重要的實現(xiàn)方式,其歷史可以追溯到20世紀50年代。
只不過,早期受制于計算機的算力,基本沒有什么能夠落地的實際應用,更多的是各類算法的研究和發(fā)展。
之后,隨著硬件的飛速發(fā)展,終于迎來了人工智能的春天,各種機器學習的算法在我們的日常生活中得到了廣泛應用(很多情況甚至我們都沒有感覺到)。
比如,小到各種的個性化推薦,語音控制,人臉識別等我們平時經(jīng)常接觸的應用,
大的方面有醫(yī)療領(lǐng)域,機器學習的成果在這些領(lǐng)域幫助醫(yī)生進行疾病診斷、輔助手術(shù)和治療,以及提供個性化的健康管理方案;
還有交通領(lǐng)域,未來的自動駕駛會給我們的出行方式帶來革命性的變化。
此外,機器學習還滲透到很多其他的方方面面,這里不再一一列舉,
本文主要想討論的是機器學習在“小數(shù)據(jù)”上的應用前景。
1. 什么是“小數(shù)據(jù)”
介紹“小數(shù)據(jù)”之前,先從大數(shù)據(jù)的概念談起。
如今,我們早已進入大數(shù)據(jù)時代,當初大數(shù)據(jù)帶來的新奇之感早已不在,
大家對大數(shù)據(jù)概念的認知也日趨成熟,一致。
大數(shù)據(jù)的“大”不僅僅是指數(shù)據(jù)量的“多”,更多的是指數(shù)據(jù)的復雜。
這里的復雜是多方面的,包括:
- 數(shù)據(jù)來源多樣:可以來自網(wǎng)絡爬取,來自自己的數(shù)據(jù)庫,或是實時的監(jiān)控等等
- 數(shù)據(jù)的屬性多樣:不同來源的數(shù)據(jù),包含的屬性也各式各樣(相同的屬性在不要的來源中也許名稱也不一樣)
- 數(shù)據(jù)的格式多樣:除了文本格式,還有語音,圖片,視頻等等
與之相對,我們今天討論的“小數(shù)據(jù)”,一方面是數(shù)據(jù)量“少”,“少”到可以單機處理;
另一方面,數(shù)據(jù)簡單,也就是來源單一,屬性不多,格式固定。
舉例來說,圍繞我們個人的各種健康數(shù)據(jù),消費數(shù)據(jù)就是“小數(shù)據(jù)”;
對某個特定企業(yè)來說,它的銷售數(shù)據(jù),運營數(shù)據(jù)也是“小數(shù)據(jù)”;
還有,在科研上,針對某個領(lǐng)域的各類實驗數(shù)據(jù)其實也是“小數(shù)據(jù)”。
概括起來,“小數(shù)據(jù)”一般有下面三個特點:
- 自用:主要來自自身的數(shù)據(jù)或者可公開采集的數(shù)據(jù),不需要考慮隱私
- 簡單:量小,這里的量小不是指只有幾百幾千條,而是指單機就能處理,不需要用到大數(shù)據(jù)平臺
- 精準:數(shù)據(jù)來源可靠,自己可控
2. “小數(shù)據(jù)”降低機器學習門檻
大數(shù)據(jù)讓機器學習在不知不覺中影響我們,在大數(shù)據(jù)時代,我們享受大廠通過機器學習訓練出的模型帶來的便利。
而小數(shù)據(jù)則讓我們有機會親自去實踐機器學習,讓機器學習成為個人和小企業(yè)手上的稱手工具,而不只是大廠的專有權(quán)利。
“小數(shù)據(jù)”降低了機器學習的門檻,這里的門檻是我們實踐機器學習的門檻,不再迷信只有在大數(shù)據(jù)基礎(chǔ)上訓練出來的模型才是可靠和精準的模型。
也就是說,沒有海量的數(shù)據(jù)也無妨,沒有超高的算力也無妨,我們依然可以在自己的“小數(shù)據(jù)”上利用機器學習利用分析和決策。
“小數(shù)據(jù)”雖然量少,但是數(shù)據(jù)的精度和可靠性很高,訓練出來的模型絕不是粗糙和低劣的。
挑兩個我自己的實際經(jīng)驗來舉例,一個是銷售數(shù)據(jù)分析的項目;一個是量化交易相關(guān)的項目。
銷售數(shù)據(jù)分析那個項目中,數(shù)據(jù)是客戶從數(shù)據(jù)庫中導出的,大約6千多萬條,數(shù)據(jù)主要就是訂單和物流兩類,
數(shù)據(jù)字段和結(jié)構(gòu)非常規(guī)整,符合“小數(shù)據(jù)”的特征。
在這個項目中,應用機器學習,得到了比傳統(tǒng)分析更多的信息,比如:
- 客戶的細分分類,使用決策樹、支持向量機(SVM)或樸素貝葉斯分類器等
- 客戶群體的相似性:使用聚類算法,比如K-Means,層次聚類等
- 產(chǎn)品之間隱含的關(guān)系:使用關(guān)聯(lián)規(guī)則算法
- 預測銷售額或銷售量:使用回歸算法
此外,還使用了一些異常數(shù)據(jù)檢測的算法,用來分析銷售額的突然下降和高退貨率的情況。
另一個量化交易的項目,這個項目的數(shù)據(jù)結(jié)構(gòu)更加簡單,
基礎(chǔ)的數(shù)據(jù)其實就5個字段(交易時間,最高價,最低價,開盤價,收盤價,交易量),也就是K線圖上放映的內(nèi)容。
在這個簡單的數(shù)據(jù)結(jié)構(gòu)之上,可以構(gòu)建各式各樣的分析指標,然后通過機器學習算法來驗證各種指標或指標組合的收益情況。
通過上面兩個實際的項目,可以看到,沒有用大數(shù)據(jù)和大數(shù)據(jù)平臺,機器學習依然對我們大有用處。
我剛開始了解機器學習之前,先去學了很多大數(shù)據(jù)相關(guān)的知識,還搭建了一些簡易的大數(shù)據(jù)平臺,去了解hadoop和spark之類的框架。
那時候,我覺得離開大數(shù)據(jù),機器學習的模型只能當成“玩具”,但是,接觸和管理大數(shù)據(jù)是有門檻的,別說個人,即使是中小型規(guī)模的企業(yè),也沒有時間和精力去維護一個大數(shù)據(jù)平臺。
如今,經(jīng)歷了一些在“小數(shù)據(jù)”上的機器學習應用,我已經(jīng)不再認為大數(shù)據(jù)和機器學習是密不可分的了。
離開大數(shù)據(jù),機器學習應用的門檻不再高不可攀,“小數(shù)據(jù)”可以讓更多的程序員加入到開發(fā)機器學習應用的隊伍中來。
3. “小數(shù)據(jù)”機器學習的前景
之前學習大數(shù)據(jù)相關(guān)知識的時候,有一本書的作者提到,在大數(shù)據(jù)的項目中,數(shù)據(jù)的采集和清洗所占的工作量高達整個項目的80%以上。
在“小數(shù)據(jù)”項目中,這個工作量可以大大減少,我們可以把時間和精力更多的用在機器學習模型的調(diào)優(yōu)中,而不是單純的數(shù)據(jù)管理上。
未來,隨著各種智能設備越來越多,圍繞我們個人的各種數(shù)據(jù)也會越來越多,基于這些針對個人的極端個性化的數(shù)據(jù),細致的去分析各種結(jié)果。就是“小數(shù)據(jù)”機器學習的應用前景之一。
此外,隨著信息化越來越普及,企業(yè)中也會產(chǎn)生各種各樣分門別類的“小數(shù)據(jù)”,比如財務數(shù)據(jù),客戶數(shù)據(jù),市場數(shù)據(jù),運營數(shù)據(jù),銷售數(shù)據(jù)等等。這些也會成為“小數(shù)據(jù)”機器學習的應用場景。
在科研中,各種實驗數(shù)據(jù)也是“小數(shù)據(jù)”,也可以通過機器學習來發(fā)掘這些數(shù)據(jù)中可能存在的創(chuàng)新契機。
總之,擺脫“機器學習模型必須要大數(shù)據(jù)支撐才能更精確”的固有思維,我們也許可以讓機器學習在“小數(shù)據(jù)”上再次大放異彩。
總結(jié)
以上是生活随笔為你收集整理的基于“小数据”的机器学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浦语书生大模型实战训练营01笔记
- 下一篇: 网站优化之favicon.ico