关于机器学习,你需要知道的三件事!
摘要:?MATLAB開發(fā)運營團隊深度解析何為機器學(xué)習(xí),什么時候使用機器學(xué)習(xí),如何選擇機器學(xué)習(xí)算法,MATLAB到底能為機器學(xué)習(xí)提供怎樣的便利?
機器學(xué)習(xí)是一種數(shù)據(jù)分析技術(shù),讓計算機執(zhí)行人和動物與生俱來的活動:從經(jīng)驗中學(xué)習(xí)。機器學(xué)習(xí)算法使用計算方法直接從數(shù)據(jù)中“學(xué)習(xí)”信息,而不依賴于預(yù)定方程模型。當可用于學(xué)習(xí)的樣本數(shù)量增加時,這些算法可自適應(yīng)提高性能。
一.機器學(xué)習(xí)為什么那么重要?
隨著大數(shù)據(jù)應(yīng)用增加,機器學(xué)習(xí)已成為解決以下領(lǐng)域問題的一項關(guān)鍵技術(shù):
·?????????1.計算金融學(xué),用于信用評估和算法交易。
·?????????2.圖像處理和計算機視覺,用于人臉識別、運動檢測和對象檢測。
·?????????3.計算生物學(xué),用于腫瘤檢測、藥物發(fā)現(xiàn)和 DNA 序列分析。
·?????????4.能源生產(chǎn),用于預(yù)測價格和負載。
·?????????5.汽車、航空航天和制造業(yè),用于預(yù)見性維護。
·?????????6.自然語言處理,用于語音識別應(yīng)用。
更多數(shù)據(jù)、更多問題、更好的解答
機器學(xué)習(xí)算法能夠在產(chǎn)生洞察力的數(shù)據(jù)中發(fā)現(xiàn)自然模式,幫助你更好地制定決策和做出預(yù)測。醫(yī)療診斷、股票交易、能量負荷預(yù)測及更多行業(yè)每天都在使用這些算法制定關(guān)鍵決策。例如,媒體網(wǎng)站依靠機器學(xué)習(xí)算法從數(shù)百萬種選項中篩選出為你推薦的歌曲或影片。零售商利用這些算法深入了解客戶的購買行為。
何時應(yīng)該使用機器學(xué)習(xí)?
當你遇到涉及大量數(shù)據(jù)和許多變量的復(fù)雜任務(wù)或問題,但沒有現(xiàn)成的處理公式或方程式時,可以考慮使用機器學(xué)習(xí)。例如,如果你需要處理以下情況,使用機器學(xué)習(xí)是一個很好的選擇:
二.機器學(xué)習(xí)的工作原理:
機器學(xué)習(xí)采用兩種技術(shù):監(jiān)督式學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督式學(xué)習(xí)根據(jù)已知的輸入和輸出訓(xùn)練模型,讓模型能夠預(yù)測未來輸出;無監(jiān)督學(xué)習(xí)從輸入數(shù)據(jù)中找出隱藏模式或內(nèi)在結(jié)構(gòu)。
監(jiān)督式學(xué)習(xí):
監(jiān)督式機器學(xué)習(xí)能夠根據(jù)已有的包含不確定性的數(shù)據(jù)建立一個預(yù)測模型。監(jiān)督式學(xué)習(xí)算法接受已知的輸入數(shù)據(jù)集(包含預(yù)測變量)和對該數(shù)據(jù)集的已知響應(yīng)(輸出,響應(yīng)變量),然后訓(xùn)練模型,使模型能夠?qū)π螺斎霐?shù)據(jù)的響應(yīng)做出合理的預(yù)測。如果你嘗試去預(yù)測已知數(shù)據(jù)的輸出,則使用監(jiān)督式學(xué)習(xí)。
監(jiān)督式學(xué)習(xí)采用分類和回歸技術(shù)開發(fā)預(yù)測模型。
分類技術(shù)可預(yù)測離散的響應(yīng) — 例如,電子郵件是不是垃圾郵件,腫瘤是惡性還是良性的。分類模型可將輸入數(shù)據(jù)劃分成不同類別。典型的應(yīng)用包括醫(yī)學(xué)成像、語音識別和信用評估。
如果你的數(shù)據(jù)能進行標記、分類或分為特定的組或類,則使用分類。例如,筆跡識別的應(yīng)用程序使用分類來識別字母和數(shù)字。在圖像處理和計算機視覺中,無監(jiān)督模式識別技術(shù)用于對象檢測和圖像分割。
用于實現(xiàn)分類的常用算法包括:支持向量機 (SVM)、提升 (boosted)?決策樹和袋裝 (bagged)?決策樹、k-最近鄰、樸素貝葉斯 (Na?ve Bayes)、判別分析、邏輯回歸和神經(jīng)網(wǎng)絡(luò)。
回歸技術(shù)可預(yù)測連續(xù)的響應(yīng) — 例如,溫度的變化或電力需求中的波動。典型的應(yīng)用包括電力系統(tǒng)負荷預(yù)測和算法交易。
如果你在處理一個數(shù)據(jù)范圍,或你的響應(yīng)性質(zhì)是一個實數(shù)(比如溫度,或一件設(shè)備發(fā)生故障前的運行時間),則使用回歸方法。
常用回歸算法包括:線性模型、非線性模型、規(guī)則化、逐步回歸、提升 (boosted)?和袋裝 (bagged)?決策樹、神經(jīng)網(wǎng)絡(luò)和自適應(yīng)神經(jīng)模糊學(xué)習(xí)。
小例子:使用監(jiān)督式學(xué)習(xí)預(yù)測心臟病發(fā)作
假設(shè)臨床醫(yī)生希望預(yù)測某位患者在一年內(nèi)是否會心臟病發(fā)作。他們有以前就醫(yī)的患者的相關(guān)數(shù)據(jù),包括年齡、體重、身高和血壓。他們知道以前的患者在一年內(nèi)是否出現(xiàn)過心臟病發(fā)作。因此,問題在于如何將現(xiàn)有數(shù)據(jù)合并到模型中,讓該模型能夠預(yù)測新患者在一年內(nèi)是否會出現(xiàn)心臟病發(fā)作。
無監(jiān)督學(xué)習(xí):
無監(jiān)督學(xué)習(xí)可發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式或內(nèi)在結(jié)構(gòu)。這種技術(shù)可根據(jù)未做標記的輸入數(shù)據(jù)集得到推論。
聚類是一種最常用的無監(jiān)督學(xué)習(xí)技術(shù)。這種技術(shù)可通過探索性數(shù)據(jù)分析發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式或分組。聚類分析的應(yīng)用包括基因序列分析、市場調(diào)查和對象識別。
例如,如果移動電話公司想優(yōu)化他們手機信號塔的建立位置,則可以使用機器學(xué)習(xí)來估算依賴這些信號塔的人群數(shù)量。一部電話一次只能與一個信號塔通信,所以,該團隊使用聚類算法設(shè)計蜂窩塔的最佳布局,優(yōu)化他們的客戶群組或集群的信號接收。
用于執(zhí)行聚類的常用算法包括:k-均值和 k-中心點(k-medoids)、層次聚類、高斯混合模型、隱馬爾可夫模型、自組織映射、模糊 c-均值聚類法和減法聚類。
如何確定使用哪種機器學(xué)習(xí)算法?
選擇正確的算法看似難以駕馭——需要從幾十種監(jiān)督式和無監(jiān)督機器學(xué)習(xí)算法中選擇,每種算法又包含不同的學(xué)習(xí)方法。
沒有最佳方法或萬全之策。找到正確的算法只是試錯過程的一部分——即使是經(jīng)驗豐富的數(shù)據(jù)科學(xué)家,也無法說出某種算法是否無需試錯即可使用。但算法的選擇還取決于你要處理的數(shù)據(jù)的大小和類型、你要從數(shù)據(jù)中獲得的洞察力以及如何運用這些洞察力。
下面是選擇監(jiān)督式或者無監(jiān)督機器學(xué)習(xí)的一些準則:
·?????????1.在以下情況下選擇監(jiān)督式學(xué)習(xí):你需要訓(xùn)練模型進行預(yù)測(例如溫度和股價等連續(xù)變量的值)或者分類(例如根據(jù)網(wǎng)絡(luò)攝像頭的錄像片段確定汽車的技術(shù)細節(jié))。
·?????????2.在以下情況下選擇無監(jiān)督學(xué)習(xí):你需要深入了解數(shù)據(jù)并希望訓(xùn)練模型找到好的內(nèi)部表示形式,例如將數(shù)據(jù)拆分到集群中。
三.MATLAB機器學(xué)習(xí):
你如何借助機器學(xué)習(xí)的力量,使用數(shù)據(jù)做出更好的決策?MATLAB 讓機器學(xué)習(xí)簡單易行。借助用于處理大數(shù)據(jù)的工具和函數(shù),以及讓機器學(xué)習(xí)發(fā)揮作用的應(yīng)用程序,MATLAB 是將機器學(xué)習(xí)應(yīng)用于你的數(shù)據(jù)分析的理想環(huán)境。
使用 MATLAB,工程師和數(shù)據(jù)科學(xué)家可以立即訪問預(yù)置的函數(shù)、大量的工具箱以及用于分類、回歸和聚類的專門應(yīng)用程序。
MATLAB?可以做到:
·?????????1.比較各種方法,例如邏輯回歸、分類樹、支持向量機、集成方法和深度學(xué)習(xí)。
·?????????2.使用模型精化和縮減技術(shù)創(chuàng)建能夠最好地捕捉預(yù)測能力的精確模型。
·?????????3.將機器學(xué)習(xí)模型集成到企業(yè)系統(tǒng)、集群和云中,并且將模型定位于實時嵌入式硬件。
·?????????4.為嵌入式傳感器分析工具執(zhí)行自動代碼生成。
·?????????5.支持從數(shù)據(jù)分析到部署的集成工作流程。
本文由阿里云云棲社區(qū)組織翻譯。
文章原標題《what is machine learning?》
作者:mathworks
譯者:虎說八道,審校:。
原文鏈接
干貨好文,請關(guān)注掃描以下二維碼:
總結(jié)
以上是生活随笔為你收集整理的关于机器学习,你需要知道的三件事!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: redis系列:通过队列案例学习list
- 下一篇: 机器学习从业人员到底做什么?