日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Introduction to Big Data with Apache Spark 课程总结

發布時間:2025/4/14 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Introduction to Big Data with Apache Spark 课程总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

課程主要實用內容:

1.spark實驗環境的搭建 2.4個lab的內容 3.常用函數 4.變量共享 1.spark實驗環境的搭建(windows)

a. 下載,安裝visualbox

? ??管理員身份運行;課程要求最新版4.3.28,如果c中遇到虛擬機打不開的,可以用4.2.12,不影響

b. 下載,安裝vagrant,重啟

? ? 管理員身份運行

c. 下載虛擬機

? ? c1.將vagrant加入path,D:\HashiCorp\Vagrant\bin

? ? c2.創建虛擬機存放的目錄,比如myvagrant

? ? c3.下載文件mooc-setup-master.zip,解壓后,拷貝Vagrantfile到myvagrant

? ? c4.打開visual box圖形界面,進入cmd,cd到myvagrant,敲命令 ? vagrant up

? ? ? ? ?開始下載虛擬機,并打開,如果下載完成,但是打開虛擬機出錯;

? ? ? ? ?可以到visual box 圖形界面點擊打開,碰到一下錯誤,可嘗試用4.2.12版visual box

? ? ? ??

使用說明:i.打開關閉虛擬機:打開visual box 界面,cd進入myvagrant

? ? ? ? ? ? ? ? ? ? ?vagrant up 打開虛擬機,vagrant halt 關閉虛擬機

? ? ? ? ? ? ? ? ? ii.ipython notebook,進入http:\\localhost:8001

? ? ? ? ? ? ? ? ? ? ?停止正在運行的notebook,點擊running,停止

? ? ? ? ? ? ? ? ? ? ?點某 .py文件,運行note book

? ? ? ? ? ? ? ? ?iii.下載ssh軟件,可登入虛擬機,地址為127.0.0.1,端口2222,用戶名vagrant,密碼vagrant

? ? ? ? ? ? ? ? ? ? ?進入后,敲pyspark,可進入pyspark交互式界面

3.常用函數

?

Spark中Rdd的生命周期

創建RDD(parallelize、textFile等

對RDD進行變換

(會創建新的RDD,不會改變原RDD,有

? ?1.對每個元素進行操作-map,flatMap,mapValues?

? ?2.篩選 ?filter

? ?3.排序 sortBy

? ?3.合并結果 reduceByKey,groupByKey

? ?4.合并兩個rdd union,join,leftJoin,rightJoin)

以上步驟中rdd都只相當于一個操作手冊,并沒有真實地在內存中產生數據,稱為lazy?evaluation

?

緩存rdd到內存中 cache() ,判斷是否cache,訪問?.is_cached屬性

觸發evaluation(包括top,take,takeOrdered,takeSample,sum,count,distinct,reduce,collect,collectAsMap)

?

4.變量共享

spark有兩種變量共享方式

a.廣播 broadcast,broadcast后的變量每個partition都會存儲一份,但是只能讀取,不能修改

>>>?b=sc.broadcast([1,2,3,4,5])

>>>?sc.parallelize([0,0]).flatMap(lambdax:b.value)

b.累加器 accumulator,只能寫,不能在worker被讀取

如果累加器只是一個標量,使用很簡單

>>>?rdd = sc.parallelize([1,2,3]) >>>?def f(x): ...?global a ...? a += x >>>?rdd.foreach(f) >>>?a.value 13

如果累加器是一個向量,需要定義AccumulatorParam,且zero方法和addInPlace都要實現

>>>?from pyspark.accumulators import AccumulatorParam >>>?class VectorAccumulatorParam(AccumulatorParam): ...? def zero(self, value): ...? return [0.0] * len(value) ...? def addInPlace(self, val1, val2): ...? for i in xrange(len(val1)): ...? val1[i] += val2[i] ...? return val1 >>>?va = sc.accumulator([1.0, 2.0, 3.0], VectorAccumulatorParam()) >>>?va.value [1.0,?2.0,?3.0]>>>?defg(x): ...?global va ...?va += [x] * 3 >>>?rdd.foreach(g) >>>?va.value [7.0,?8.0,?9.0]

?



來自為知筆記(Wiz)



轉載于:https://www.cnblogs.com/porco/p/4642512.html

總結

以上是生活随笔為你收集整理的Introduction to Big Data with Apache Spark 课程总结的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 波多一区二区 | 五月婷婷综合色 | 日韩欧美三级在线观看 | 久久久久女人精品毛片九一 | 国产精品久久久久久久久 | 超碰下载页面 | 欧美精品导航 | 国产3区| 俄罗斯女人裸体性做爰 | 精品人妻av一区二区三区 | 三级av在线播放 | 欧美成人片在线观看 | 亚洲精品乱码久久久久久蜜桃动漫 | 97人人爱 | 免费的理伦片在线播放 | 国产美女一级片 | 亚洲女人毛片 | 高清一区二区三区视频 | 欧美性大战久久久久久 | 日韩欧美在线免费 | a级黄片毛片 | 最新中文字幕久久 | 久久94| 国内精品卡一卡二卡三 | 日日精| 亚洲精选中文字幕 | 黄色性网站 | hd性videos意大利精品 | 四虎av网址| 女人扒开双腿让男人捅 | 久久久夜色 | 777久久久精品一区二区三区 | av图区| 悠悠av| 日韩有码在线播放 | 午夜aa| 久久久久国色av免费观看性色 | 亚洲第二色 | 99re在线播放 | 亚洲三级中文字幕 | 又黄又色 | 中文字幕在线观看1 | 国产农村熟妇videos | 在线免费小电影 | 国产视频福利在线观看 | 免费看av的网址 | 亚洲天堂国产精品 | 中文字幕亚洲一区 | 黑人一级| а中文在线天堂 | 国产色拍 | 中文字幕欧美激情 | 亚洲国产高清国产精品 | 国产麻豆一区二区三区 | 无码人妻精品一区二 | 亚洲精品 日韩无码 | 色屋在线| 337p日本欧洲亚洲大胆张筱雨 | 99av视频 | 视频成人免费 | 极品美女销魂一区二区三区 | 不卡视频在线播放 | 在线观看一区二区三区视频 | 极品女神无套呻吟啪啪 | 国产欧美一区二区三区在线看蜜臀 | 色男人天堂av | 亚洲乱亚洲| 日韩精品系列 | 日韩欧美成人一区二区三区 | 午夜精品成人毛片非洲 | 第一福利丝瓜av导航 | 伊人9| 男女啪啪无遮挡 | 欧美日韩3p | 精品国产传媒 | 精品国产一区二区三区久久久久久 | 日韩精品一区二区三区四区五区 | 少妇又紧又色 | 丨国产丨调教丨91丨 | 日韩欧美久久 | 日韩精品人妻一区二区中文字幕 | 青青操av在线| 国产高清在线观看 | av在线网址大全 | 午夜88 | 三级视频在线看 | 午夜影院在线视频 | 亚洲少妇自拍 | 成人永久视频 | 综合网在线视频 | 神马午夜视频 | 精品国产区 | 亚洲精品无码专区 | 国产我不卡 | 久久这里只有精品久久 | 国产女人18水真多18精品一级做 | 中文字幕一区二区三区免费看 | 国产真人做爰视频免费 | 免费成年人视频在线观看 |