日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

spark初识

發(fā)布時(shí)間:2025/4/5 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 spark初识 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

spark特性

  提供了java scala python 和R的api支持。

  在生產(chǎn)環(huán)境上擴(kuò)展超過8000個(gè)節(jié)點(diǎn)。

  可以在內(nèi)存中緩存交互中間數(shù)據(jù)的能力:提煉一個(gè)工作集合,緩存它,反復(fù)查詢。

  低級別的水平伸縮的數(shù)據(jù)檢索可以通過scala或者python 命令行進(jìn)行交互。

  高級別的流處理庫spark streaming可以處理流數(shù)據(jù)。

  通過spark sql支持結(jié)構(gòu)化的關(guān)系查詢處理(sql)。

  機(jī)器學(xué)習(xí)和圖形處理的高級別庫。

spark工程構(gòu)成

1. spark核心及RRDs(Resilient Distributed Datasets)

  spark核心是整個(gè)工程的基礎(chǔ),它提供了分布式任務(wù)的分發(fā)、調(diào)度和基本的IO功能。最基本的抽象就是RRDs,一個(gè)跨機(jī)器的分區(qū)數(shù)據(jù)的邏輯集合。RDDs可以由引用的外部存儲系統(tǒng)創(chuàng)建,或者在已存在的RDDs上應(yīng)用粗粒度變換(如map,filter,reduce,join等)。

  RDDs抽象接口由特定語言java、python、scala 的api接口暴露,如在本地?cái)?shù)據(jù)集合一樣。這簡化了編程的復(fù)雜性,因?yàn)閼?yīng)用操作RDDs的方式和操作本地?cái)?shù)據(jù)集合類似。

2. spark sql

  spark sql組件位于spark核心之上,它引入了名稱為SchemaRDD的新的數(shù)據(jù)抽象。SchemaRDD支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。spark sql 提供了基于特定語言scala,java,python操作schemaRDDs。它也提供了通過命令行和odbc/jdbc服務(wù)器來操作sql語句的支持。從Spark 1.3開始,SchemaRDD命名為DataFrame。

3. spark streaming

  spark streaming利用spark核心的快速調(diào)度能力來執(zhí)行流分析。它小批量采集數(shù)據(jù)并且對這些小批量數(shù)據(jù)執(zhí)行RDD轉(zhuǎn)換。這種設(shè)計(jì)使在一臺引擎中,批量分析的應(yīng)用程序代碼也可以用在流分析的批量分析中。

4. MLLIb機(jī)器學(xué)習(xí)庫

  MLLib是一個(gè)位于spark之上的分布式系統(tǒng)學(xué)習(xí)框架,因其基于分布式內(nèi)存的spark架構(gòu),它的速度達(dá)到相同版本的基于磁盤的apache Mahout的9倍,擴(kuò)展性甚至優(yōu)于Vowpal Wabbit。它實(shí)現(xiàn)了很多通用機(jī)器學(xué)習(xí)和分析算法來簡化大規(guī)模機(jī)器學(xué)習(xí)管道,包括:

summary statistics, correlations, stratified sampling, hypothesis testing, random data generation; classification and regression: SVMs, logistic regression, linear regression, decision trees, naive Bayes; collaborative filtering: alternating least squares (ALS); clustering: k-means, Latent Dirichlet Allocation (LDA); dimensionality reduction: singular value decomposition (SVD), principal component analysis (PCA); feature extraction and transformation; optimization primitives: stochastic gradient descent, limited-memory BFGS (L-BFGS);

5. GraphX

  GraphX是一個(gè)位于spark之上的分布式圖形處理框架。

spark源碼結(jié)構(gòu)

整體上Spark分為以下幾個(gè)主要的子模塊:

  • deploy:?deply模塊包括Master,Work和Client,參見architecture圖的最上 部分。deploy主要負(fù)責(zé)啟動(dòng)和調(diào)度用戶實(shí)現(xiàn)的Spark application并且分配資源給用戶 application,類似于Hadoop YARN框架。
  • scheduler:?scheduler主要負(fù)責(zé)調(diào)度用戶application內(nèi)的tasks,根據(jù)部署方式的不 同Spark實(shí)現(xiàn)了多種不同的scheduler,包括LocalScheduler,ClusterScheduler等 。
  • rdd:?rdd類似于一個(gè)分布式的數(shù)據(jù)集,用戶可以根據(jù)rdd所提供的api進(jìn)行數(shù)據(jù)集的 操作,rdd模塊是用戶交互的主要模塊。
  • storage:?storage模塊主要負(fù)責(zé)數(shù)據(jù)集,也就是rdd的存取。根據(jù)設(shè)定的不同,數(shù) 據(jù)可以保存在內(nèi)存、磁盤或是兩者。Spark與Hadoop MapReduce最大的不同在于MapReduce 將數(shù)據(jù)保存在HDFS上,而Spark則由自己的存儲系統(tǒng)。

?

參考文獻(xiàn)

【1】https://en.wikipedia.org/wiki/Apache_Spark

【2】http://jerryshao.me/architecture/2013/03/29/spark-overview/

轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/4747953.html

總結(jié)

以上是生活随笔為你收集整理的spark初识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。