Python应用实战案例-pyspark库从安装到实战保姆级讲解
01 pyspark簡介及環(huán)境搭建
pyspark是python中的一個第三方庫,相當(dāng)于Apache Spark組件的python化版本(Spark當(dāng)前支持Java Scala Python和R 4種編程語言接口),需要依賴py4j庫(即python for java的縮略詞),而恰恰是這個庫實現(xiàn)了將python和java的互聯(lián),所以pyspark庫雖然體積很大,大約226M,但實際上絕大部分都是spark中的原生jar包,占據(jù)了217M,體積占比高達(dá)96%。
由于Spark是基于Scala語言實現(xiàn)的大數(shù)據(jù)組件,而Scala語言又是運(yùn)行在JVM虛擬機(jī)上的,所以Spark自然依賴JDK,截止目前為止JDK8依然可用,而且?guī)缀跏前惭b各大數(shù)據(jù)組件時的首選。所以搭建pyspark環(huán)境首先需要安裝JDK8,而后這里介紹兩種方式搭建pyspark運(yùn)行環(huán)境:
1)pip install pyspark+任意pythonIDE
pyspark作為python的一個第三方庫,自然可以通過pip包管理工具進(jìn)行安裝,所以僅需執(zhí)行如下命令即可完成自動安裝:
為了保證更快的下載速度,可以更改pip源為國內(nèi)鏡像,具體設(shè)置方式可參考?xì)v史文章:
總結(jié)
以上是生活随笔為你收集整理的Python应用实战案例-pyspark库从安装到实战保姆级讲解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数学建模】线性代数知识汇总,参加建模大
- 下一篇: Python应用实战案例-Python实