spark初识
spark特性:
提供了java scala python 和R的api支持。
在生產(chǎn)環(huán)境上擴(kuò)展超過8000個(gè)節(jié)點(diǎn)。
可以在內(nèi)存中緩存交互中間數(shù)據(jù)的能力:提煉一個(gè)工作集合,緩存它,反復(fù)查詢。
低級別的水平伸縮的數(shù)據(jù)檢索可以通過scala或者python 命令行進(jìn)行交互。
高級別的流處理庫spark streaming可以處理流數(shù)據(jù)。
通過spark sql支持結(jié)構(gòu)化的關(guān)系查詢處理(sql)。
機(jī)器學(xué)習(xí)和圖形處理的高級別庫。
spark工程構(gòu)成:
1. spark核心及RRDs(Resilient Distributed Datasets)
spark核心是整個(gè)工程的基礎(chǔ),它提供了分布式任務(wù)的分發(fā)、調(diào)度和基本的IO功能。最基本的抽象就是RRDs,一個(gè)跨機(jī)器的分區(qū)數(shù)據(jù)的邏輯集合。RDDs可以由引用的外部存儲系統(tǒng)創(chuàng)建,或者在已存在的RDDs上應(yīng)用粗粒度變換(如map,filter,reduce,join等)。
RDDs抽象接口由特定語言java、python、scala 的api接口暴露,如在本地?cái)?shù)據(jù)集合一樣。這簡化了編程的復(fù)雜性,因?yàn)閼?yīng)用操作RDDs的方式和操作本地?cái)?shù)據(jù)集合類似。
2. spark sql
spark sql組件位于spark核心之上,它引入了名稱為SchemaRDD的新的數(shù)據(jù)抽象。SchemaRDD支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。spark sql 提供了基于特定語言scala,java,python操作schemaRDDs。它也提供了通過命令行和odbc/jdbc服務(wù)器來操作sql語句的支持。從Spark 1.3開始,SchemaRDD命名為DataFrame。
3. spark streaming
spark streaming利用spark核心的快速調(diào)度能力來執(zhí)行流分析。它小批量采集數(shù)據(jù)并且對這些小批量數(shù)據(jù)執(zhí)行RDD轉(zhuǎn)換。這種設(shè)計(jì)使在一臺引擎中,批量分析的應(yīng)用程序代碼也可以用在流分析的批量分析中。
4. MLLIb機(jī)器學(xué)習(xí)庫
MLLib是一個(gè)位于spark之上的分布式系統(tǒng)學(xué)習(xí)框架,因其基于分布式內(nèi)存的spark架構(gòu),它的速度達(dá)到相同版本的基于磁盤的apache Mahout的9倍,擴(kuò)展性甚至優(yōu)于Vowpal Wabbit。它實(shí)現(xiàn)了很多通用機(jī)器學(xué)習(xí)和分析算法來簡化大規(guī)模機(jī)器學(xué)習(xí)管道,包括:
summary statistics, correlations, stratified sampling, hypothesis testing, random data generation; classification and regression: SVMs, logistic regression, linear regression, decision trees, naive Bayes; collaborative filtering: alternating least squares (ALS); clustering: k-means, Latent Dirichlet Allocation (LDA); dimensionality reduction: singular value decomposition (SVD), principal component analysis (PCA); feature extraction and transformation; optimization primitives: stochastic gradient descent, limited-memory BFGS (L-BFGS);5. GraphX
GraphX是一個(gè)位于spark之上的分布式圖形處理框架。
spark源碼結(jié)構(gòu)
整體上Spark分為以下幾個(gè)主要的子模塊:
- deploy:?deply模塊包括Master,Work和Client,參見architecture圖的最上 部分。deploy主要負(fù)責(zé)啟動(dòng)和調(diào)度用戶實(shí)現(xiàn)的Spark application并且分配資源給用戶 application,類似于Hadoop YARN框架。
- scheduler:?scheduler主要負(fù)責(zé)調(diào)度用戶application內(nèi)的tasks,根據(jù)部署方式的不 同Spark實(shí)現(xiàn)了多種不同的scheduler,包括LocalScheduler,ClusterScheduler等 。
- rdd:?rdd類似于一個(gè)分布式的數(shù)據(jù)集,用戶可以根據(jù)rdd所提供的api進(jìn)行數(shù)據(jù)集的 操作,rdd模塊是用戶交互的主要模塊。
- storage:?storage模塊主要負(fù)責(zé)數(shù)據(jù)集,也就是rdd的存取。根據(jù)設(shè)定的不同,數(shù) 據(jù)可以保存在內(nèi)存、磁盤或是兩者。Spark與Hadoop MapReduce最大的不同在于MapReduce 將數(shù)據(jù)保存在HDFS上,而Spark則由自己的存儲系統(tǒng)。
?
參考文獻(xiàn)
【1】https://en.wikipedia.org/wiki/Apache_Spark
【2】http://jerryshao.me/architecture/2013/03/29/spark-overview/
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/4747953.html
總結(jié)
- 上一篇: Spark:一个高效的分布式计算系统--
- 下一篇: solr源码分析之数据导入DataImp