日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

谷歌深度学习四大教训:应用、系统、数据及原理(附数据集列表)

發布時間:2025/3/21 windows 73 豆豆
生活随笔 收集整理的這篇文章主要介紹了 谷歌深度学习四大教训:应用、系统、数据及原理(附数据集列表) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


谷歌深度學習四大教訓:應用、系統、數據及原理(附數據集列表)

新智元mp 2016-10-28 19:22:55 閱讀(809) 評論(0)

新智元原創

參考來源:airsassociation.org

作者:聞菲、弗格森

  新智元啟動新一輪大招聘:COO、執行總編、主編、高級編譯、主筆、運營總監、客戶經理、咨詢總監、行政助理等 9 大崗位全面開放。

  簡歷投遞:jobs@aiera.com.cn

  HR 微信:13552313024

  新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨干員工提供最完整的培訓體系、高于業界平均水平的工資和獎金。

  加盟新智元,與人工智能業界領袖攜手改變世界。

  【新智元導讀】剛剛結束的倫敦深度學習峰會上,曾與吳恩達在 Google Brain 共事的谷歌高級研究員 Greg Corrado 分享了他對何時、何地、如何使用深度學習等非常實用的經驗。Corrado 表示:某些情況下,盡管深度學習十分有用,也完全可以使用其他方法;沒有谷歌那樣強大的系統也能做深度學習。Corrado 盡管是神經科學出身,但他認為 AI 從腦科學研究成果中受益非常有限。本文結合吳恩達、RNN 之父 Jürgen Schmidhuber 的觀點對其做了進一步闡經驗。

  在深度學習和人工智能上,谷歌聘請了一些世界上最聰明的研究研究員,聽聽他們怎么看待這一領域并不是個壞主意。在剛剛結束的倫敦深度學習峰會上,谷歌高級研究員 Greg Corrado發表演講,就何時、為什么以及怎么樣使用深度學習提出了幾點建議。

  深度學習并非必須,即便它可能會有用

  Corrado 給出的最有用的建議也許就是:深度學習并不一定都是解決問題的最佳方式,即便它也許能得到最好的結果。現在,深度學習計算成本高昂,而且通常都要求有大量的數據,如果你是自己搭建系統的話,可能還需要一些內行的專業知識。所以,深度學習可能最終在一些結構化數據基礎之上的模式識別任務上可以做得很好,比如欺詐檢測、股票市場預測或者是銷售管道分析等等。

  Corrado 說,在一些已經得到廣泛采用的領域,調整(justify)會更容易進行。“機器感知上,深度學習就比其他方法要好得多得多。” 但是,在別的領域,深度學習和其他方法之間的差距其實并沒有那么大。

  實際上,從新智元之前的報道《11 位機器學習大牛最愛算法全解》中就能發現,在深度學習如此流行的今天,即使是大牛最喜歡用的也不一定是深度學習。

  小“引擎”也能做深度學習

  Corrado 說,即使當一家公司已經決定使用深度學習技術,它也沒有必要像谷歌、Facebook 或者百度一樣建立那么巨大的系統。臺式計算機如果有一塊高效的 GPU,也能發揮作用。

  Corrado 解釋說,谷歌需要一個巨大的系統,是因為他們有大量的數據,并且,隨著研究的演進,他們要能夠迅速推動項目才行。但是,如果你知道自己想干什么,或者沒有大的時間限制,那么小的系統也足夠了

  “答案肯定是沒有必要,”Corrado 重復道:“……你的系統只要大到能存下火箭燃料就行了。”

  Corrado “火箭燃料”的比喻來自他的前同事、現在的百度首席科學家吳恩達,這是后者經常提到的比喻(現在是“AI 是新的電力”)。不過,關于什么才是“火箭燃料”,吳恩達自己也有兩種說法。

  2015 年初,吳恩達在未來論壇創立大會發表主旨演講《機器學習與AI人工智能》,以百度語音識別為例,對“火箭論”做了比較詳細的介紹。其中,吳恩達說:

  “為什么深度學習現在開始火了?我要做一個比喻,你想象一下我們建造火箭,火箭有兩個部分,第一部分是火箭發射機,第二個是燃料。如果發動機小,燃料很多是不可能的;如果發動機很小,燃料很少也不行,所以火箭必須要有一個大發動機和很多的燃料。深度學習和這個差不多,現在神經網絡就是發動機,它推動著 AI 的發展,燃料就是我們所用的數據,社會數據化給我們提供了大量的數據輸入發動機中給作燃料AI最近發展的主要推動力,是因為能夠建很大的神經網絡。百度這樣的公司能夠收集很多的數據,還有一個很大的技術網絡,這樣當然深度學習可以越來越好了。

  “我再給大家舉一個例子,解釋我剛才做的發動機核燃料的比喻。我現在和大家展示一個關于語音識別的例子。百度在語音識別方面投入了很多,直到最近基本上所有語音識別都是很簡單的軟件實施,一個方塊里是一個復雜的體系。我們最近決定改用神經網絡——就是我們的發動機——會取得什么效果(參見下面的PPT)。百度早期在 GPU 投入很多,所以能夠建造很大的火箭發動機。燃料是什么?在語音識別方面,大部分學術人士都利用數據,有一些人有300個小時,最大的是2000個小時,最開始百度用了幾個小時的語音數據,后來有幾千個,再后來建立了合成的語音數據,最后一共達到了10萬個的語音數據,按照語音識別的標準,這是無法想象的數據量。將火箭燃料和火箭引擎放在一起,就提高了語音識別的性能,而且也有很好開放的OPI進行發現。”

  

  但是,吳恩達在今年 2 月接受《財富》雜志采訪時,對“火箭引擎”做了更改:“計算能力的提高和數據的增多,推動機器學習領域取得了很大的進步,盡管這種觀點在學術界并不受歡迎。以造火箭來打個比方……在這個比喻中,火箭引擎便是大型計算機——在百度,也就是我們正在建造的超級計算機——而火箭燃料便是我們擁有的大量數據。

  在倫敦深度學習峰會當天早些時候,本文作者對吳恩達進行了采訪,吳恩達介紹了深度學習是如何驅動百度的廣告服務的。但是,吳恩達也建議說,數據中心的運營方式(也就是谷歌正在探索的)可能更適合。

  總之,Corrado 建議,“臺式計算機如果有一塊高效的 GPU,也能發揮作用”,只要你知道自己想做什么就行了。

  但是,你可能需要很多數據

  不過, Corrado 也指出,訓練深度學習模型確實需要大量的數據。理想情況是,把你能拿到是所有數據都用上。如果他要給決策層提建議,什么時候該使用深度學習,那么主要考慮的兩個問題便是:

  • 你需要解決的是不是機器感知的問題;

  • 你是不是擁有大量的數據。

  •   他說:“為了讓系統運轉,你必須要擁有大量的數據。” 如果沒有大量的數據,他的建議是可以去想辦法拿到數據。保證在每一個你希望訓練的特征上都有不少于 100 次的可訓練觀察,這是一個很好的開始。

      Corrado 表示,花上幾個月的時間去對模型進行調整和優化浪費時間,想辦法在早期獲得更多的訓練數據能讓你更快地解決問題

      Corrado 還說,他對自己工作的定位不是在建立智能計算機(人工智能)或者打造會學習的計算機(機器學習),而是開發一種能學著變得智能的計算機。

      

      訓練這樣一個系統需要大量的數據

      設想一下,假如有(采用相對統一的數據格式保存的)世界各國地圖數據庫、各種語言的語料庫……會是件非常美好的事情。除了各大巨頭開源的和 Github、Reddit、Kaggle 這些比較知名的數據庫,新智元根據 Wikipedia 整理了一些開放的大規模(英語)數據庫,希望對你有所幫助:

      跨學科數據庫、搜索引擎:

    • https://www..com/datasets

    • http://usgovxml.com

    • http://aws.amazon.com/datasets

    • http://databib.org

    • http://datacite.org

    • http://figshare.com

    • http://linkeddata.org

    • http://thewebminer.com/

    • http://thedatahub.org

    • http://ckan.net

    • http://quandl.com

    • Open Data Inception(這里有 2500+ 開源接口)

      單一數據集和數據庫

    • http://archive.ics.uci.edu/ml/

    • http://crawdad.org/

    • http://data.austintexas.gov

    • http://snap.stanford.edu/data/index.html

    • http://data.cityofchicago.org

    • http://data.govloop.com

    • http://data.gov.uk/data.gov.in

    • http://data.medicare.gov

    • http://www.dados.gov.pt/pt/catalogodados/catalogodados.aspx

    • http://data.sfgov.org

    • http://data.sunlightlabs.com

    • https://datamarket.azure.com/

    • http://econ.worldbank.org/datasets

    • http://gettingpastgo.socrata.com

    • http://public.resource.org/

    • http://timetric.com/public-data/

    • http://www.bls.gov/

    • http://www.crunchbase.com/

    • http://www.dartmouthatlas.org/

    • http://www.data.gov/

    • http://www.datakc.org

    • http://dbpedia.org

    • http://www.factual.com/

    • http://www.freebase.com/

    • http://www.infochimps.com

    • http://build.kiva.org/

    • http://www.imdb.com/interfaces

    • http://knoema.com

    • http://daten.berlin.de/

    • http://www.qunb.com

    • http://databib.org/

    • http://datacite.org/

    • http://data.reegle.info/

    • http://data.wien.gv.at/

    • http://data.gov.bc.ca

      社交網絡數據庫

    • http://enigma.io

    • http://www.ufindthem.com/

    • http://NetworkRepository.com(有視覺互動分析的機器學習數據庫)

    • http://MLvis.com

      深度學習并不是真的基于大腦

      Corrado 是神經科學博士,在進入谷歌之前,曾在 IBM 研發了 SyNAPSE 神經突觸芯片。他確信,深度學習能從人類大腦運作機制中得到的借鑒是很有限的。同時,前提條件是我們需要弄明白大腦的工作原理,但是在這一點上我們知之甚少。

      同樣,RNN 之父 Jürgen Schmidhuber 的觀點也是如此。在談到腦科學及其對 AI 影響的時候,Schmidhuber 表示,他的研究基本不會因為腦科學的成果而受益。

      Schmidhuber 說:“上一次神經科學對 AI 有啟發是幾十年前的事情了。最近深度學習的成功主要是由于數學和工程上的發現,與神經科學基本沒什么關聯。在本世紀初,我在 IDSIA 實驗室制造出了從數學上進行優化的通用 AI 和問題解決程序(例如 Marcus Hutter AIXI 模型,或者我提出的自引用的哥德爾機器),它們都只包含幾個公式。我認為從簡單的原理綜合得出一個實用的智能模型,比起分析現有樣例——也即人類大腦——要簡單得多。從上世紀 90 年代起,我在演講中就一直談到這樣一個例子,現在有一個 19 世紀的工程師,他懂一點點電的原理,他該如何研究一臺現代手機的智能呢?或許他會用針去戳芯片,測量各個半導體特有的曲線(就像神經科學家測量神經元鈣離子通道的細節),完全沒有意識到半導體的主要存在理由是作為一個簡單的二元開關。或許他會監測微處理器根據時間散熱分布的變化(就像神經科學家研究大規模現象,比如在思考時腦區的活動),完全沒有意識到它上面運行的程序的簡單性質。理解智能的原理并不需要神經生物學或電子工程學,而是需要數學和算法,尤其是機器學習和搜索程序的技術。”

      大會當天早些時候,吳恩達也表達了相同的觀點。他說,很多研究者都認為人類以一種非監督式的方法進行學習,但是, 今天大多數的深度學習模型仍然通過監督式方法進行訓練。也就是說,計算機分析了很多的標簽圖像、語音樣本或者其他任何東西進行學習。

      吳恩達此前也提到,深度學習所面臨的一個重要限制是,其創造的幾乎所有價值都在輸入-輸出映射當中。如果在企業數據中,X 代表亞馬遜的一個用戶賬號,Y 代表“他們是否曾進行購物?”你有大量 X-Y 配對的數據,那么就可以采用深度學習。但在自行檢索數據和發現價值方面,這類算法仍處在起步階段。

      拿深度學習(或神經網絡)與大腦進行比較,雖然是比較形象,但也會導致對深度學習的能力的夸大。Corrado 說,這種類比,現在已經被認為過于夸張了。

    總結

    以上是生活随笔為你收集整理的谷歌深度学习四大教训:应用、系统、数据及原理(附数据集列表)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。