當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

spark初识

發(fā)布時(shí)間：2025/4/5 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark初识小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

spark特性：

　　提供了java scala python 和R的api支持。

　　在生產(chǎn)環(huán)境上擴(kuò)展超過8000個(gè)節(jié)點(diǎn)。

　　可以在內(nèi)存中緩存交互中間數(shù)據(jù)的能力：提煉一個(gè)工作集合，緩存它，反復(fù)查詢。

　　低級別的水平伸縮的數(shù)據(jù)檢索可以通過scala或者python 命令行進(jìn)行交互。

　　高級別的流處理庫spark streaming可以處理流數(shù)據(jù)。

　　通過spark sql支持結(jié)構(gòu)化的關(guān)系查詢處理（sql）。

　　機(jī)器學(xué)習(xí)和圖形處理的高級別庫。

spark工程構(gòu)成：

1. spark核心及RRDs(Resilient Distributed Datasets)

　　spark核心是整個(gè)工程的基礎(chǔ)，它提供了分布式任務(wù)的分發(fā)、調(diào)度和基本的IO功能。最基本的抽象就是RRDs，一個(gè)跨機(jī)器的分區(qū)數(shù)據(jù)的邏輯集合。RDDs可以由引用的外部存儲系統(tǒng)創(chuàng)建，或者在已存在的RDDs上應(yīng)用粗粒度變換(如map，filter，reduce，join等)。

　　RDDs抽象接口由特定語言java、python、scala 的api接口暴露，如在本地?cái)?shù)據(jù)集合一樣。這簡化了編程的復(fù)雜性，因?yàn)閼?yīng)用操作RDDs的方式和操作本地?cái)?shù)據(jù)集合類似。

2. spark sql

　　spark sql組件位于spark核心之上，它引入了名稱為SchemaRDD的新的數(shù)據(jù)抽象。SchemaRDD支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。spark sql 提供了基于特定語言scala，java，python操作schemaRDDs。它也提供了通過命令行和odbc/jdbc服務(wù)器來操作sql語句的支持。從Spark 1.3開始，SchemaRDD命名為DataFrame。

3. spark streaming

　　spark streaming利用spark核心的快速調(diào)度能力來執(zhí)行流分析。它小批量采集數(shù)據(jù)并且對這些小批量數(shù)據(jù)執(zhí)行RDD轉(zhuǎn)換。這種設(shè)計(jì)使在一臺引擎中，批量分析的應(yīng)用程序代碼也可以用在流分析的批量分析中。

4. MLLIb機(jī)器學(xué)習(xí)庫

　　MLLib是一個(gè)位于spark之上的分布式系統(tǒng)學(xué)習(xí)框架，因其基于分布式內(nèi)存的spark架構(gòu)，它的速度達(dá)到相同版本的基于磁盤的apache Mahout的9倍，擴(kuò)展性甚至優(yōu)于Vowpal Wabbit。它實(shí)現(xiàn)了很多通用機(jī)器學(xué)習(xí)和分析算法來簡化大規(guī)模機(jī)器學(xué)習(xí)管道，包括：

summary statistics, correlations, stratified sampling, hypothesis testing, random data generation； classification and regression: SVMs, logistic regression, linear regression, decision trees, naive Bayes； collaborative filtering: alternating least squares (ALS)； clustering: k-means, Latent Dirichlet Allocation (LDA)； dimensionality reduction: singular value decomposition (SVD), principal component analysis (PCA)； feature extraction and transformation； optimization primitives: stochastic gradient descent, limited-memory BFGS (L-BFGS)；

5. GraphX

　　GraphX是一個(gè)位于spark之上的分布式圖形處理框架。

spark源碼結(jié)構(gòu)

整體上Spark分為以下幾個(gè)主要的子模塊:

deploy:?deply模塊包括Master，Work和Client，參見architecture圖的最上部分。deploy主要負(fù)責(zé)啟動(dòng)和調(diào)度用戶實(shí)現(xiàn)的Spark application并且分配資源給用戶 application，類似于Hadoop YARN框架。
scheduler:?scheduler主要負(fù)責(zé)調(diào)度用戶application內(nèi)的tasks，根據(jù)部署方式的不同Spark實(shí)現(xiàn)了多種不同的scheduler，包括LocalScheduler，ClusterScheduler等。
rdd:?rdd類似于一個(gè)分布式的數(shù)據(jù)集，用戶可以根據(jù)rdd所提供的api進(jìn)行數(shù)據(jù)集的操作，rdd模塊是用戶交互的主要模塊。
storage:?storage模塊主要負(fù)責(zé)數(shù)據(jù)集，也就是rdd的存取。根據(jù)設(shè)定的不同，數(shù) 據(jù)可以保存在內(nèi)存、磁盤或是兩者。Spark與Hadoop MapReduce最大的不同在于MapReduce 將數(shù)據(jù)保存在HDFS上，而Spark則由自己的存儲系統(tǒng)。

參考文獻(xiàn)

【1】https://en.wikipedia.org/wiki/Apache_Spark

【2】http://jerryshao.me/architecture/2013/03/29/spark-overview/

轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/4747953.html

總結(jié)

以上是生活随笔為你收集整理的spark初识的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

Spark

上一篇： Spark：一个高效的分布式计算系统--
下一篇： solr源码分析之数据导入DataImp