【机器学习】什么是机器学习?(下)
轉(zhuǎn)自慧安金科:https://blog.csdn.net/hajk2017/article/details/81189409
感謝博主
在搜索引擎里輸入“什么是機(jī)器學(xué)習(xí)”,就像打開了一個(gè)潘多拉盒子,論壇、學(xué)術(shù)研究,應(yīng)有盡有,正是由于技術(shù)人員對(duì)概念和定義的簡(jiǎn)化,才使我們得以更好地理解什么是機(jī)器學(xué)習(xí)。
簡(jiǎn)單地說,機(jī)器學(xué)習(xí)是一種數(shù)據(jù)分析技術(shù),它可以教計(jì)算機(jī)做那些人類和動(dòng)物生來就會(huì)做的事情:從經(jīng)驗(yàn)中學(xué)習(xí)。機(jī)器學(xué)習(xí)算法使用計(jì)算方法直接從數(shù)據(jù)中“學(xué)習(xí)”信息,而不依賴于預(yù)定的方程來建模。隨著學(xué)習(xí)樣本數(shù)量的增加,算法還能自動(dòng)適應(yīng)、提高性能。
隨著大數(shù)據(jù)的發(fā)展,機(jī)器學(xué)習(xí)已經(jīng)成為許多領(lǐng)域處理問題的關(guān)鍵技術(shù),例如:
計(jì)算金融,信用評(píng)分和算法交易
圖像處理和計(jì)算機(jī)視覺,用于人臉識(shí)別、運(yùn)動(dòng)檢測(cè)和目標(biāo)檢測(cè)
計(jì)算生物學(xué),用于腫瘤檢測(cè)、藥物發(fā)現(xiàn)和DNA測(cè)序
能源生產(chǎn),價(jià)格和負(fù)荷預(yù)測(cè)
汽車、航空航天和制造業(yè)的預(yù)見性維護(hù)
自然語言處理,用于語音識(shí)別應(yīng)用
?
更多數(shù)據(jù)、更多問題、更多答案
機(jī)器學(xué)習(xí)算法在數(shù)據(jù)中發(fā)現(xiàn)了一些自然規(guī)律,并在此基礎(chǔ)上幫你做出更好的決策和預(yù)測(cè)。在醫(yī)療診斷、股票交易、能量負(fù)載等預(yù)測(cè)場(chǎng)景中,人們每天都需要借助機(jī)器學(xué)習(xí)算法進(jìn)行決策。例如,媒體網(wǎng)站依靠機(jī)器學(xué)習(xí)從數(shù)百萬種選擇中篩選出幾首歌或幾個(gè)視頻推送給你。零售商可以利用機(jī)器學(xué)習(xí)算法了解顧客的購買習(xí)慣。
?
為什么要使用機(jī)器學(xué)習(xí)?
假設(shè)你遇到了一個(gè)復(fù)雜的問題,它涉及海量數(shù)據(jù)和變量,而又沒有現(xiàn)成的公式或函數(shù)可循,這時(shí)候最好的解決方案就是機(jī)器學(xué)習(xí)模型。
機(jī)器學(xué)習(xí)對(duì)于以下場(chǎng)景非常有效:
在面部識(shí)別和語音識(shí)別中,手寫規(guī)則過于復(fù)雜時(shí)
在交易記錄的反欺詐中,反欺詐規(guī)則在不斷變化時(shí)
在能源需求預(yù)測(cè)、銷售預(yù)測(cè)中,數(shù)據(jù)特征持續(xù)變化且需要程序主動(dòng)適應(yīng)時(shí)
?
機(jī)器學(xué)習(xí)如何工作?
機(jī)器學(xué)習(xí)包括兩種技術(shù),一種叫作“有監(jiān)督機(jī)器學(xué)習(xí)”(Supervised Learning),它在已知輸入和輸出結(jié)果的數(shù)據(jù)基礎(chǔ)上訓(xùn)練模型,并利用模型預(yù)測(cè)新數(shù)據(jù)的輸出結(jié)果;一種叫作“無監(jiān)督機(jī)器學(xué)習(xí)”(Unsupervised Learning),它通過尋找輸入數(shù)據(jù)的隱藏規(guī)律和內(nèi)部結(jié)構(gòu)進(jìn)行聚類和關(guān)聯(lián)分析。
有監(jiān)督機(jī)器學(xué)習(xí)建立了一個(gè)模型,該模型在不確定性存在的前提下,基于數(shù)據(jù)的結(jié)果進(jìn)行預(yù)測(cè)。有監(jiān)督機(jī)器學(xué)習(xí)算法采用已知的輸入數(shù)據(jù)集合對(duì)應(yīng)的輸出數(shù)據(jù)集來訓(xùn)練模型,讓模型具備預(yù)測(cè)新數(shù)據(jù)結(jié)果的能力。
有監(jiān)督機(jī)器學(xué)習(xí)使用分類和回歸方法來開發(fā)預(yù)測(cè)模型。
分類(Classification)通過對(duì)離散型隨機(jī)變量建模,用于郵件過濾、金融欺詐以及預(yù)測(cè)雇員異動(dòng)等輸出為類別的任務(wù)。典型的應(yīng)用包括醫(yī)學(xué)成像、語音識(shí)別、信用評(píng)分以及字符識(shí)別等。
常用的分類算法包括支持向量機(jī)(SVM)、決策樹、最近鄰、樸素貝葉斯、判別分析、邏輯回歸和神經(jīng)網(wǎng)絡(luò)等。
回歸(Regression)通過對(duì)數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測(cè)和建模,用于房?jī)r(jià)預(yù)測(cè)、股票走勢(shì)、測(cè)試成績(jī)等輸出為數(shù)值的任務(wù)。典型的應(yīng)用包括電力負(fù)荷預(yù)測(cè)和算法交易。
常見的回歸算法包括線性模型、非線性模型、正則化、逐步回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和自適應(yīng)神經(jīng)模糊學(xué)習(xí)等。
我們?nèi)绾问褂糜斜O(jiān)督機(jī)器學(xué)習(xí)方法?
假設(shè)臨床醫(yī)生想要預(yù)測(cè)一個(gè)人在一年內(nèi)是否會(huì)突發(fā)心臟病。他們有多位病人的既往健康檢測(cè)數(shù)據(jù),包括年齡、身高、體重和血壓等。同時(shí),他們也知道這些病人在過去的一年內(nèi)是否突發(fā)心臟病。那么,他們可以把現(xiàn)有數(shù)據(jù)輸入機(jī)器學(xué)習(xí)模型,讓機(jī)器在這些病人數(shù)據(jù)的基礎(chǔ)上預(yù)測(cè)任意一個(gè)人在一年內(nèi)突發(fā)心臟病的概率。
?
無監(jiān)督機(jī)器學(xué)習(xí)通過尋找數(shù)據(jù)之間的隱藏規(guī)律和內(nèi)部結(jié)構(gòu)進(jìn)行關(guān)聯(lián)分析。無監(jiān)督機(jī)器學(xué)習(xí)使用的輸入數(shù)據(jù)集常常是沒有任何標(biāo)簽的。
聚類(Clustering)是無監(jiān)督機(jī)器學(xué)習(xí)中使用最為普遍的算法。它通過分析數(shù)據(jù)的內(nèi)部結(jié)構(gòu)尋找和觀察樣本中的自然族群——集群(clusters)。聚類分析的典型應(yīng)用包括基因序列分析、市場(chǎng)調(diào)研、文章推薦、新聞聚類等。
例如,當(dāng)一個(gè)手機(jī)運(yùn)營(yíng)商想要通過模型分析優(yōu)化它的信號(hào)塔選址時(shí),由于一個(gè)手機(jī)一次只能接收一個(gè)信號(hào)塔發(fā)出的信號(hào),因此我們可以通過分析所有從這個(gè)信號(hào)塔接收信號(hào)的客戶位置,利用聚類方法估計(jì)這個(gè)信號(hào)塔服務(wù)客戶的族群數(shù)量,從而找到可以保證所有客戶能夠接收信號(hào)的最佳信號(hào)塔位置。
常用的聚類算法包括k-均值、層次聚類、高斯混合模型、隱馬爾可夫模型、自組織映射、模糊C均值聚類和減法聚類等。
如何選擇合適的機(jī)器學(xué)習(xí)算法?
機(jī)器學(xué)習(xí)共有幾十種算法,每一種算法都需要通過不同的方法進(jìn)行學(xué)習(xí),因此選擇一種適合的算法就變得至關(guān)重要。
首先需要明確的是,在機(jī)器學(xué)習(xí)領(lǐng)域,并沒有最好的辦法或者一刀切的方法。我們只能通過不斷地嘗試和總結(jié)找到最佳方法,甚至經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家在未經(jīng)嘗試之前也無法判斷算法是否有效。
總的來說,算法的選擇取決于你要處理的數(shù)據(jù)的體量大小和類型,以及你想通過數(shù)據(jù)獲得的結(jié)論。
以下是對(duì)建模之前選擇機(jī)器學(xué)習(xí)算法的一些建議:
如果你要訓(xùn)練一個(gè)模型來預(yù)測(cè),那么選擇有監(jiān)督機(jī)器學(xué)習(xí)——例如,一個(gè)連續(xù)變量的未來值,例如溫度或股票價(jià)格,或者一個(gè)分類,例如從攝像頭視頻片段中識(shí)別出汽車。
如果你需要探索你的數(shù)據(jù),并且想要訓(xùn)練一個(gè)模型來找到一個(gè)好的內(nèi)部結(jié)構(gòu)展示,比如把數(shù)據(jù)分成集群,那么選擇無監(jiān)督機(jī)器學(xué)習(xí)。
相關(guān)文章:
什么是機(jī)器學(xué)習(xí)?(上)
人工智能(AI)經(jīng)歷了怎樣的發(fā)展歷程?
總結(jié)
以上是生活随笔為你收集整理的【机器学习】什么是机器学习?(下)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】什么是机器学习?(上)
- 下一篇: 【数据挖掘】数据挖掘简介