日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于Apache Spark的机器学习及神经网络算法和应用

發布時間:2025/7/25 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于Apache Spark的机器学习及神经网络算法和应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用高級分析算法(如大規模機器學習、圖形分析和統計建模等)來發現和探索數據是當前流行的思路,在IDF16技術課堂上,英特爾公司軟件開發工程師王以恒分享了《基于Apache Spark的機器學習及神經網絡算法和應用》的課程,介紹了大規模分布式機器學習在欺詐檢測、用戶行為預測(稀疏邏輯回歸)中的實際應用,以及英特爾在LDA、Word2Vec、CNN、稀疏KMeans和參數服務器等方面的一些支持或優化工作。

當前的機器學習/深度學習庫很多,用Spark支撐分布式機器學習和深度神經網絡,主要是基于兩點考慮:

  • 大數據平臺的統一性。因為隨著Spark特性,分析團隊越來越喜歡用Spark作為大數據平臺,而機器學習/深度學習也離不開大數據。
  • 其他的一些框架(主要是深度學習框架,如Caffe)對多機并行支持不好。
  • 在某頂級支付公司的端到端大數據解決方案中,英特爾開發的Standardizer、WOE、神經網絡模型、Estimator、Bagging Utility等都被應用,并且ML管線也由英特爾改進。

    稀疏邏輯回歸主要解決了網絡和內存瓶頸的問題,因為大規模學習,每次迭代廣播至每個Worker的的權重和每個任務發送的梯度都是雙精度向量,非常巨大。英特爾利用數據稀疏性,使用高級編碼緩存數據(使用稀疏格式緩存),壓縮數據通信,并對二進制值優化處理,最后得到的梯度是稀疏向量。

    基于Apache Spark的大規模主題模型正在開發中(https://github.com/intel-analytics/TopicModeling)。

    Spark上的分布式神經網絡,Driver廣播權重和偏差到每個Worker,這與稀疏邏輯回歸有類似之處,英特爾將神經網絡與經過優化的英特爾數學核心函數庫(支持英特爾架構加速)集成。

    面向Spark的參數服務器的工作,包括數據模型、支持的操作、同步模型、容錯、集成GraphX等,通過可變參數作為系統上的補充,實現更好的性能和容錯性,相當于將兩個架構僅僅做系統整合(Yarn之上)。由于模型并行的復雜性,英特爾團隊目前也還沒有考慮模型并行的工作。

    演講PPT完整下載

    總結

    以上是生活随笔為你收集整理的基于Apache Spark的机器学习及神经网络算法和应用的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。