日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

邓仰东专栏|机器学习的那些事儿(一)

發(fā)布時間:2024/3/13 编程问答 68 豆豆
生活随笔 收集整理的這篇文章主要介紹了 邓仰东专栏|机器学习的那些事儿(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄

1.緒論

1.1.概述

1.2 機器學(xué)習(xí)簡史

1.3 機器學(xué)習(xí)改變世界:基于GPU的機器學(xué)習(xí)實例

??? ?1.3.1 基于深度神經(jīng)網(wǎng)絡(luò)的視覺識別

???? 1.3.2 AlphaGO

??? ?1.3.3 IBM Waston

1.4 機器學(xué)習(xí)方法分類和本書組織


在這一章里面,我們首先審視正在高歌猛進的數(shù)據(jù)科學(xué),了解使用GPU進行機器學(xué)習(xí)計算的重要性。接下來,我們回顧機器學(xué)習(xí)的發(fā)展歷程,并且檢閱當前機器學(xué)習(xí)技術(shù)的幾項最高成就:人工智能圍棋(AlphaGo)、深度神經(jīng)網(wǎng)絡(luò)圖像識別(ImageNet)和IBM Waston人工智能系統(tǒng),從而領(lǐng)略機器學(xué)習(xí)技術(shù)震撼世界的腳步。第三部分,我們對機器學(xué)習(xí)算法進行概略分類,并且根據(jù)分類結(jié)果介紹本書內(nèi)容。


1.1 概述


我們生活在一個偉大的時代,人類文明史上最卓越的心智成就以前所未有的深度、廣度和速度交匯融合,催生出潛力無限的數(shù)據(jù)科學(xué)(data science)。數(shù)據(jù)科學(xué)是在人類社會數(shù)字化程度充分發(fā)展的前提下,綜合計算機科學(xué)、數(shù)學(xué)和神經(jīng)科學(xué)等領(lǐng)域的理論和技術(shù)成果,以數(shù)據(jù)挖掘作為應(yīng)用形式,通過對數(shù)據(jù)進行存儲、分析和可視化等各種處理,從中提煉信息并形成知識,從而引導(dǎo)優(yōu)化決策的科學(xué)。簡單說來,數(shù)據(jù)科學(xué)就是針對大數(shù)據(jù)的理論和方法。


當前,數(shù)據(jù)科學(xué)已經(jīng)深度融入我們的日常生活,我們可以從一天的平凡生活中檢查一下數(shù)據(jù)科學(xué)在怎樣發(fā)揮作用的:上下班路上,導(dǎo)航系統(tǒng)會分析數(shù)據(jù)告訴我們不同路線的擁堵情況并且實時預(yù)測預(yù)計行程時間,如果乘坐公車的話,還可以通過歷史數(shù)據(jù)和實時路況預(yù)報公車到站時間;我們打電話時,電信運營商會通過采集我們打電話的模式,諸如地點、時間段和服務(wù)套餐情況(但是不能使用時頻、語音和個人帳號信息),推斷我們的身份、生活習(xí)慣和經(jīng)濟狀況,從而確定相應(yīng)的推送內(nèi)容;


我們上網(wǎng)沖浪時,搜索引擎提供的內(nèi)容當然是對海量網(wǎng)頁進行分析處理的結(jié)果,而且也會我把我們的搜索內(nèi)容拿去分析,從中提煉熱點搜索趨勢,并且對我們的行為進行推斷;購物時,無論是電商還是傳統(tǒng)商戶,都可能分析我們的購物歷史決定向我們推薦商品,而在付款之中或之后,銀行的數(shù)據(jù)分析系統(tǒng)會判斷這是一次正常消費還是一次欺詐;


工作時,即使我們不直接使用數(shù)據(jù)分析工具,也幾乎不可避免地在產(chǎn)生或者消費數(shù)據(jù),有些公司(例如惠普)甚至使用預(yù)測軟件分析每個雇員辭職的可能性(?有趣的是,數(shù)據(jù)分析師自己經(jīng)常被判別為潛在離職風(fēng)險較高的雇員,因為社會需求極為迫切。)


除此之外,還有更多的數(shù)據(jù)分析系統(tǒng)在暗中“琢磨”我們,比如說醫(yī)療保險公司在算計我們未來的健康趨勢,由此決定保費應(yīng)該怎樣變化,社交網(wǎng)絡(luò)公司在計算是否發(fā)現(xiàn)了你的同學(xué)或者熟人,或者怎樣讓你的社交圈通過最短路徑和其它群落連接起來,還有基金公司會分析社交網(wǎng)絡(luò)上大家的情感趨勢,以此作為預(yù)測證券價格漲落的依據(jù),如果你是單身而且在征婚網(wǎng)站登記的話,還會有數(shù)據(jù)分析引擎根據(jù)你的資料進行分類和匹配,為你尋找合適的另一半。


數(shù)據(jù)科學(xué)向社會生活的滲透正在以不可阻擋的勢頭在更大范圍上更加深化。表1-1是遠不完全(實際上完整枚舉數(shù)據(jù)應(yīng)用已經(jīng)成為不可能完成的任務(wù))的典型數(shù)據(jù)科學(xué)應(yīng)用的清單。

?

表1.1 典型數(shù)據(jù)應(yīng)用

公司/組織

代表性數(shù)據(jù)應(yīng)用

亮點

谷歌Google

對全球35萬億個網(wǎng)頁進行索引,并形成1億G字節(jié)的索引記錄

全部Internet搜索服務(wù)的89%由Google提供

亞馬遜Amazon

采集并分析其7.5億顧客的購物行為(包括購物和瀏覽),分析顧客的收入和偏好,從而為顧客進行商品推薦

Amazon的推薦系統(tǒng)是其成為美國最大線上零售商(年產(chǎn)值900億美元)的主要助力,也是其品牌的重要標志

網(wǎng)飛Netflix

根據(jù)電影內(nèi)容進行分類,并根據(jù)用戶觀看電影的歷史進行喜好分析并推薦電影

非結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)的經(jīng)典技術(shù),是Netflix用戶和流量繼續(xù)加速增長的主要動力

沃爾瑪

Walmart

利用購物籃分析推薦商品,使用社會和環(huán)境數(shù)據(jù)預(yù)測購買需求

沃爾瑪自行開發(fā)的Data Café數(shù)據(jù)分析系統(tǒng)處理一個擁有2000億組交易數(shù)據(jù)的數(shù)據(jù)庫,能夠把銷售問題平均解決時間從2~3周降低至20分鐘左右

歐洲核子研究組織CERN

分析數(shù)據(jù)中的特殊能量特征,從中確定是否發(fā)現(xiàn)特定粒子

每年產(chǎn)生30PB數(shù)據(jù),主要是粒子對撞機中粒子碰撞時產(chǎn)生的光信號,2013年通過分析數(shù)據(jù)發(fā)現(xiàn)了希格斯玻色子

羅爾斯-羅伊斯Rolls-Royce

分析發(fā)動機實時監(jiān)控數(shù)據(jù),確定優(yōu)化維護和修理方案

支撐全球500家以上航空公司和150多支空軍的航空發(fā)動機,大數(shù)據(jù)技術(shù)顯著降低了運維成本

殼牌石油Shell

分析地址數(shù)據(jù)發(fā)現(xiàn)油田

大幅度提高了勘探精度

蓮花F1車隊

Lotus F1 Team

分析賽場數(shù)據(jù)實時調(diào)整塞車參數(shù),利用數(shù)據(jù)建立仿真模型優(yōu)化賽車設(shè)計

把青年車手Marlon Stockinger的賽季總成績從2013年的全球第18名提高到2014年的第9名

臉書

Facebook

分析用戶數(shù)據(jù)推送廣告

2014年占據(jù)美國24%的在線廣告份額,創(chuàng)收53億美元;預(yù)計2017年市場份額達到27%,創(chuàng)收100億美元

皇家蘇格蘭銀行

Royal Bank of Scotland

分析交易數(shù)據(jù)最大化客戶盈利以及支撐各種客戶關(guān)系管理需求

通過海量數(shù)據(jù)挖掘支撐金融個性化服務(wù)

目標超市

Target

分解消費者行為預(yù)測懷孕可能性并據(jù)此推送產(chǎn)品推薦

能夠比以往多發(fā)現(xiàn)30%以上孕婦

匹茲堡大學(xué)醫(yī)療中心

出院前預(yù)測病人未來30天再次住院的可能性

降低治療風(fēng)險

倫敦股票交易所

分析數(shù)據(jù)決定投資方案

約40%的股票交易由數(shù)據(jù)應(yīng)用自行驅(qū)動

大陸航空公司

分析航班數(shù)據(jù)

有效降低航班延誤和航線利用率

奧巴馬競選團隊

分析選民數(shù)據(jù)推測哪些選民更容易被競選活動影響

取得了驚人的程序

惠普

HP

分析全球35萬名員工的辭職風(fēng)險

預(yù)計收益3億美元

美國國稅局

分析納稅人數(shù)據(jù)發(fā)現(xiàn)水手欺詐

在不增加工作人時的前提下提升發(fā)現(xiàn)逃稅率25倍


隨著人類社會數(shù)字化程度的迅速提升,目前全球數(shù)據(jù)規(guī)模已經(jīng)達到44萬億GB。數(shù)據(jù)增長的速度更是驚人,我們可以從圖1-1中看看當前各大網(wǎng)站一分鐘的數(shù)據(jù)量。讀者可以想象一下,在閱讀這一頁的過程中,全球數(shù)據(jù)又增加了多少。


數(shù)據(jù)產(chǎn)生的來源和數(shù)量增長之快,以至于2013年的一份分析報告指出全球數(shù)據(jù)的90%是在此前兩年中產(chǎn)生的([1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.)也就是說每兩年產(chǎn)生的數(shù)據(jù)是此前全部數(shù)據(jù)的10倍,而且我們可以大膽的猜測到本書出版之時,95%甚至更多的數(shù)據(jù)實在過去三年內(nèi)產(chǎn)生的。


數(shù)據(jù)規(guī)模是如此之大,種類又是如此之多,以至于一般認為當前我們能夠分析的數(shù)據(jù)只是全部數(shù)據(jù)的0.5%。那么我們怎樣才能充分利用海量數(shù)據(jù),而不是“湮沒在數(shù)據(jù)中卻饑渴于無法獲得知識(Drowning in Data yet Starving for Knowledge)”呢?答案是顯然的,機器學(xué)習(xí)算法必須借助更強勁的計算硬件(嚴格講應(yīng)該是能效比更高的硬件。)和更加靈活的程序設(shè)計技術(shù)。



?圖1-1 全球1分鐘內(nèi)產(chǎn)生的數(shù)據(jù)


然而,我們手中并沒有一種硬件能夠同時在上述兩項要求上都能表現(xiàn)最佳。圖1-2是對常見計算平臺的比較。在圖1-2的左側(cè),是執(zhí)行順序程序的CPU,其編程模式符合人類的思維方式,編程工具完備而成熟,然而性能相對有限。


特別是自從2000年以后,傳統(tǒng)上以增加時鐘頻率提升CPU性能的方法已經(jīng)遇到瓶頸,繼續(xù)提高頻率提升性能有限,反而帶來功耗的大幅度增加。數(shù)字信號處理器是對CPU進行訂制,針對特定應(yīng)用引入專用指令和硬件從而提高性能的處理器,其編程靈活性有所下降,但是能夠提高相應(yīng)應(yīng)用的性能。數(shù)字信號處理器曾經(jīng)是高性能的標志,但是隨著多核CPU的出現(xiàn),已經(jīng)逐漸退出高性能計算市場,主要用于嵌入式產(chǎn)品。


多核CPU是在集成電路工藝的集成能力繼續(xù)提升而單核性能飽和的產(chǎn)物,通過引入多個并行執(zhí)行指令的CPU內(nèi)核保證整體性能的增加。多核CPU必須使用并行程序才能獲得更好的性能,其編程靈活性有所限制。


?圖1-2 常見計算平臺的計算能力和可編程性


在圖1-2的右端是專用集成電路,即針對特定應(yīng)用采用特定算法而設(shè)計的硬件平臺,完全不具備編程能力,但是性能可以達到極致。


在當前市場需求多元化并且高速變化的背景下,缺乏可編程能力是嚴重的缺陷,因此專用集成電路只有在用量極大的前提下才具有競爭力,越來越多的電子產(chǎn)品使用系統(tǒng)芯片,即集成專用集成電路和嵌入式處理器的芯片。以FPGA為代表的可編程硬件比專用集成電路性能低一個檔次,但是具有硬件編程能力,因此也成為一種重要的計算平臺。


專用處理器也是折衷可編程性和性能的產(chǎn)物,其思想是針對特定應(yīng)用設(shè)計指令集,其中某些指令可以通過專用硬件直接執(zhí)行,從而在保持一定編程靈活性的基礎(chǔ)上改善性能。然而,專用處理器的應(yīng)用范圍比較窄,因此編程工具極為有限、使用人群較小,因而也限制了靈活性


圖1-2的中央是圖形處理器(Graphics Processing Unit,簡稱GPU),其前身是為圖形渲染應(yīng)用而設(shè)計的專用處理器,但是經(jīng)過30年的發(fā)展,隨著圖形應(yīng)用的復(fù)雜度越來越高、性能要求越來越突出,已經(jīng)演變?yōu)榫哂懈叨扔嬎隳芰透叨瓤删幊棠芰Φ挠嬎闫脚_。


在各種計算硬件中,GPU比較完美地折衷了性能和靈活性。注意以上討論中,我們所說的性能其實指特定制造工藝下單位面積提供的性能,不同制造工藝下的不同類硬件平臺的性能錯綜復(fù)雜。


由于GPU擁有圖形渲染市場的支持,能夠保證其出貨量,因此能夠使用最先進的制造工藝并且制造較大的芯片,從而能夠提供極高的單片性能,在較低工藝下制造的專用集成電路和FPGA反而不容易達到使用最新工藝的GPU的性能。從2006年開始,NVIDIA和AMD等GPU制造商意識到GPU可以成為一種與CPU互補的通用計算平臺,相繼退出一系列編程工具,從而極大地開闊了GPU的應(yīng)用。


從2010年開始,機器學(xué)習(xí)成為全球化熱點,眾多企業(yè)、科研和政府機構(gòu)開始在日常工作中大量使用數(shù)據(jù)挖掘工具,而機器學(xué)習(xí)算法普遍具有計算密集特點,特別適合GPU硬件執(zhí)行,因此,圖形處理器幾乎一夜之間成為機器學(xué)習(xí)最重要的應(yīng)用平臺。


參考文獻

[1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.



關(guān)注LinkSpark公眾號,了解更多人工智能相關(guān)資訊!

總結(jié)

以上是生活随笔為你收集整理的邓仰东专栏|机器学习的那些事儿(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。