邓仰东专栏|机器学习的那些事儿(一)
目錄
1.緒論
1.1.概述
1.2 機器學(xué)習(xí)簡史
1.3 機器學(xué)習(xí)改變世界:基于GPU的機器學(xué)習(xí)實例
??? ?1.3.1 基于深度神經(jīng)網(wǎng)絡(luò)的視覺識別
???? 1.3.2 AlphaGO
??? ?1.3.3 IBM Waston
1.4 機器學(xué)習(xí)方法分類和本書組織
在這一章里面,我們首先審視正在高歌猛進的數(shù)據(jù)科學(xué),了解使用GPU進行機器學(xué)習(xí)計算的重要性。接下來,我們回顧機器學(xué)習(xí)的發(fā)展歷程,并且檢閱當前機器學(xué)習(xí)技術(shù)的幾項最高成就:人工智能圍棋(AlphaGo)、深度神經(jīng)網(wǎng)絡(luò)圖像識別(ImageNet)和IBM Waston人工智能系統(tǒng),從而領(lǐng)略機器學(xué)習(xí)技術(shù)震撼世界的腳步。第三部分,我們對機器學(xué)習(xí)算法進行概略分類,并且根據(jù)分類結(jié)果介紹本書內(nèi)容。
1.1 概述
我們生活在一個偉大的時代,人類文明史上最卓越的心智成就以前所未有的深度、廣度和速度交匯融合,催生出潛力無限的數(shù)據(jù)科學(xué)(data science)。數(shù)據(jù)科學(xué)是在人類社會數(shù)字化程度充分發(fā)展的前提下,綜合計算機科學(xué)、數(shù)學(xué)和神經(jīng)科學(xué)等領(lǐng)域的理論和技術(shù)成果,以數(shù)據(jù)挖掘作為應(yīng)用形式,通過對數(shù)據(jù)進行存儲、分析和可視化等各種處理,從中提煉信息并形成知識,從而引導(dǎo)優(yōu)化決策的科學(xué)。簡單說來,數(shù)據(jù)科學(xué)就是針對大數(shù)據(jù)的理論和方法。
當前,數(shù)據(jù)科學(xué)已經(jīng)深度融入我們的日常生活,我們可以從一天的平凡生活中檢查一下數(shù)據(jù)科學(xué)在怎樣發(fā)揮作用的:上下班路上,導(dǎo)航系統(tǒng)會分析數(shù)據(jù)告訴我們不同路線的擁堵情況并且實時預(yù)測預(yù)計行程時間,如果乘坐公車的話,還可以通過歷史數(shù)據(jù)和實時路況預(yù)報公車到站時間;我們打電話時,電信運營商會通過采集我們打電話的模式,諸如地點、時間段和服務(wù)套餐情況(但是不能使用時頻、語音和個人帳號信息),推斷我們的身份、生活習(xí)慣和經(jīng)濟狀況,從而確定相應(yīng)的推送內(nèi)容;
我們上網(wǎng)沖浪時,搜索引擎提供的內(nèi)容當然是對海量網(wǎng)頁進行分析處理的結(jié)果,而且也會我把我們的搜索內(nèi)容拿去分析,從中提煉熱點搜索趨勢,并且對我們的行為進行推斷;購物時,無論是電商還是傳統(tǒng)商戶,都可能分析我們的購物歷史決定向我們推薦商品,而在付款之中或之后,銀行的數(shù)據(jù)分析系統(tǒng)會判斷這是一次正常消費還是一次欺詐;
工作時,即使我們不直接使用數(shù)據(jù)分析工具,也幾乎不可避免地在產(chǎn)生或者消費數(shù)據(jù),有些公司(例如惠普)甚至使用預(yù)測軟件分析每個雇員辭職的可能性(?有趣的是,數(shù)據(jù)分析師自己經(jīng)常被判別為潛在離職風(fēng)險較高的雇員,因為社會需求極為迫切。)
除此之外,還有更多的數(shù)據(jù)分析系統(tǒng)在暗中“琢磨”我們,比如說醫(yī)療保險公司在算計我們未來的健康趨勢,由此決定保費應(yīng)該怎樣變化,社交網(wǎng)絡(luò)公司在計算是否發(fā)現(xiàn)了你的同學(xué)或者熟人,或者怎樣讓你的社交圈通過最短路徑和其它群落連接起來,還有基金公司會分析社交網(wǎng)絡(luò)上大家的情感趨勢,以此作為預(yù)測證券價格漲落的依據(jù),如果你是單身而且在征婚網(wǎng)站登記的話,還會有數(shù)據(jù)分析引擎根據(jù)你的資料進行分類和匹配,為你尋找合適的另一半。
數(shù)據(jù)科學(xué)向社會生活的滲透正在以不可阻擋的勢頭在更大范圍上更加深化。表1-1是遠不完全(實際上完整枚舉數(shù)據(jù)應(yīng)用已經(jīng)成為不可能完成的任務(wù))的典型數(shù)據(jù)科學(xué)應(yīng)用的清單。
?
表1.1 典型數(shù)據(jù)應(yīng)用
| 公司/組織 | 代表性數(shù)據(jù)應(yīng)用 | 亮點 |
| 谷歌Google | 對全球35萬億個網(wǎng)頁進行索引,并形成1億G字節(jié)的索引記錄 | 全部Internet搜索服務(wù)的89%由Google提供 |
| 亞馬遜Amazon | 采集并分析其7.5億顧客的購物行為(包括購物和瀏覽),分析顧客的收入和偏好,從而為顧客進行商品推薦 | Amazon的推薦系統(tǒng)是其成為美國最大線上零售商(年產(chǎn)值900億美元)的主要助力,也是其品牌的重要標志 |
| 網(wǎng)飛Netflix | 根據(jù)電影內(nèi)容進行分類,并根據(jù)用戶觀看電影的歷史進行喜好分析并推薦電影 | 非結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)的經(jīng)典技術(shù),是Netflix用戶和流量繼續(xù)加速增長的主要動力 |
| 沃爾瑪 Walmart | 利用購物籃分析推薦商品,使用社會和環(huán)境數(shù)據(jù)預(yù)測購買需求 | 沃爾瑪自行開發(fā)的Data Café數(shù)據(jù)分析系統(tǒng)處理一個擁有2000億組交易數(shù)據(jù)的數(shù)據(jù)庫,能夠把銷售問題平均解決時間從2~3周降低至20分鐘左右 |
| 歐洲核子研究組織CERN | 分析數(shù)據(jù)中的特殊能量特征,從中確定是否發(fā)現(xiàn)特定粒子 | 每年產(chǎn)生30PB數(shù)據(jù),主要是粒子對撞機中粒子碰撞時產(chǎn)生的光信號,2013年通過分析數(shù)據(jù)發(fā)現(xiàn)了希格斯玻色子 |
| 羅爾斯-羅伊斯Rolls-Royce | 分析發(fā)動機實時監(jiān)控數(shù)據(jù),確定優(yōu)化維護和修理方案 | 支撐全球500家以上航空公司和150多支空軍的航空發(fā)動機,大數(shù)據(jù)技術(shù)顯著降低了運維成本 |
| 殼牌石油Shell | 分析地址數(shù)據(jù)發(fā)現(xiàn)油田 | 大幅度提高了勘探精度 |
| 蓮花F1車隊 Lotus F1 Team | 分析賽場數(shù)據(jù)實時調(diào)整塞車參數(shù),利用數(shù)據(jù)建立仿真模型優(yōu)化賽車設(shè)計 | 把青年車手Marlon Stockinger的賽季總成績從2013年的全球第18名提高到2014年的第9名 |
| 臉書 | 分析用戶數(shù)據(jù)推送廣告 | 2014年占據(jù)美國24%的在線廣告份額,創(chuàng)收53億美元;預(yù)計2017年市場份額達到27%,創(chuàng)收100億美元 |
| 皇家蘇格蘭銀行 Royal Bank of Scotland | 分析交易數(shù)據(jù)最大化客戶盈利以及支撐各種客戶關(guān)系管理需求 | 通過海量數(shù)據(jù)挖掘支撐金融個性化服務(wù) |
| 目標超市 Target | 分解消費者行為預(yù)測懷孕可能性并據(jù)此推送產(chǎn)品推薦 | 能夠比以往多發(fā)現(xiàn)30%以上孕婦 |
| 匹茲堡大學(xué)醫(yī)療中心 | 出院前預(yù)測病人未來30天再次住院的可能性 | 降低治療風(fēng)險 |
| 倫敦股票交易所 | 分析數(shù)據(jù)決定投資方案 | 約40%的股票交易由數(shù)據(jù)應(yīng)用自行驅(qū)動 |
| 大陸航空公司 | 分析航班數(shù)據(jù) | 有效降低航班延誤和航線利用率 |
| 奧巴馬競選團隊 | 分析選民數(shù)據(jù)推測哪些選民更容易被競選活動影響 | 取得了驚人的程序 |
| 惠普 HP | 分析全球35萬名員工的辭職風(fēng)險 | 預(yù)計收益3億美元 |
| 美國國稅局 | 分析納稅人數(shù)據(jù)發(fā)現(xiàn)水手欺詐 | 在不增加工作人時的前提下提升發(fā)現(xiàn)逃稅率25倍 |
隨著人類社會數(shù)字化程度的迅速提升,目前全球數(shù)據(jù)規(guī)模已經(jīng)達到44萬億GB。數(shù)據(jù)增長的速度更是驚人,我們可以從圖1-1中看看當前各大網(wǎng)站一分鐘的數(shù)據(jù)量。讀者可以想象一下,在閱讀這一頁的過程中,全球數(shù)據(jù)又增加了多少。
數(shù)據(jù)產(chǎn)生的來源和數(shù)量增長之快,以至于2013年的一份分析報告指出全球數(shù)據(jù)的90%是在此前兩年中產(chǎn)生的([1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.)也就是說每兩年產(chǎn)生的數(shù)據(jù)是此前全部數(shù)據(jù)的10倍,而且我們可以大膽的猜測到本書出版之時,95%甚至更多的數(shù)據(jù)實在過去三年內(nèi)產(chǎn)生的。
數(shù)據(jù)規(guī)模是如此之大,種類又是如此之多,以至于一般認為當前我們能夠分析的數(shù)據(jù)只是全部數(shù)據(jù)的0.5%。那么我們怎樣才能充分利用海量數(shù)據(jù),而不是“湮沒在數(shù)據(jù)中卻饑渴于無法獲得知識(Drowning in Data yet Starving for Knowledge)”呢?答案是顯然的,機器學(xué)習(xí)算法必須借助更強勁的計算硬件(嚴格講應(yīng)該是能效比更高的硬件。)和更加靈活的程序設(shè)計技術(shù)。
?圖1-1 全球1分鐘內(nèi)產(chǎn)生的數(shù)據(jù)
然而,我們手中并沒有一種硬件能夠同時在上述兩項要求上都能表現(xiàn)最佳。圖1-2是對常見計算平臺的比較。在圖1-2的左側(cè),是執(zhí)行順序程序的CPU,其編程模式符合人類的思維方式,編程工具完備而成熟,然而性能相對有限。
特別是自從2000年以后,傳統(tǒng)上以增加時鐘頻率提升CPU性能的方法已經(jīng)遇到瓶頸,繼續(xù)提高頻率提升性能有限,反而帶來功耗的大幅度增加。數(shù)字信號處理器是對CPU進行訂制,針對特定應(yīng)用引入專用指令和硬件從而提高性能的處理器,其編程靈活性有所下降,但是能夠提高相應(yīng)應(yīng)用的性能。數(shù)字信號處理器曾經(jīng)是高性能的標志,但是隨著多核CPU的出現(xiàn),已經(jīng)逐漸退出高性能計算市場,主要用于嵌入式產(chǎn)品。
多核CPU是在集成電路工藝的集成能力繼續(xù)提升而單核性能飽和的產(chǎn)物,通過引入多個并行執(zhí)行指令的CPU內(nèi)核保證整體性能的增加。多核CPU必須使用并行程序才能獲得更好的性能,其編程靈活性有所限制。
?圖1-2 常見計算平臺的計算能力和可編程性
在圖1-2的右端是專用集成電路,即針對特定應(yīng)用采用特定算法而設(shè)計的硬件平臺,完全不具備編程能力,但是性能可以達到極致。
在當前市場需求多元化并且高速變化的背景下,缺乏可編程能力是嚴重的缺陷,因此專用集成電路只有在用量極大的前提下才具有競爭力,越來越多的電子產(chǎn)品使用系統(tǒng)芯片,即集成專用集成電路和嵌入式處理器的芯片。以FPGA為代表的可編程硬件比專用集成電路性能低一個檔次,但是具有硬件編程能力,因此也成為一種重要的計算平臺。
專用處理器也是折衷可編程性和性能的產(chǎn)物,其思想是針對特定應(yīng)用設(shè)計指令集,其中某些指令可以通過專用硬件直接執(zhí)行,從而在保持一定編程靈活性的基礎(chǔ)上改善性能。然而,專用處理器的應(yīng)用范圍比較窄,因此編程工具極為有限、使用人群較小,因而也限制了靈活性。
圖1-2的中央是圖形處理器(Graphics Processing Unit,簡稱GPU),其前身是為圖形渲染應(yīng)用而設(shè)計的專用處理器,但是經(jīng)過30年的發(fā)展,隨著圖形應(yīng)用的復(fù)雜度越來越高、性能要求越來越突出,已經(jīng)演變?yōu)榫哂懈叨扔嬎隳芰透叨瓤删幊棠芰Φ挠嬎闫脚_。
在各種計算硬件中,GPU比較完美地折衷了性能和靈活性。注意以上討論中,我們所說的性能其實指特定制造工藝下單位面積提供的性能,不同制造工藝下的不同類硬件平臺的性能錯綜復(fù)雜。
由于GPU擁有圖形渲染市場的支持,能夠保證其出貨量,因此能夠使用最先進的制造工藝并且制造較大的芯片,從而能夠提供極高的單片性能,在較低工藝下制造的專用集成電路和FPGA反而不容易達到使用最新工藝的GPU的性能。從2006年開始,NVIDIA和AMD等GPU制造商意識到GPU可以成為一種與CPU互補的通用計算平臺,相繼退出一系列編程工具,從而極大地開闊了GPU的應(yīng)用。
從2010年開始,機器學(xué)習(xí)成為全球化熱點,眾多企業(yè)、科研和政府機構(gòu)開始在日常工作中大量使用數(shù)據(jù)挖掘工具,而機器學(xué)習(xí)算法普遍具有計算密集特點,特別適合GPU硬件執(zhí)行,因此,圖形處理器幾乎一夜之間成為機器學(xué)習(xí)最重要的應(yīng)用平臺。
參考文獻
[1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.
關(guān)注LinkSpark公眾號,了解更多人工智能相關(guān)資訊!
總結(jié)
以上是生活随笔為你收集整理的邓仰东专栏|机器学习的那些事儿(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Modbus Tcp服务端使用说明书
- 下一篇: HDU - 6078 Wavel Seq