日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pyspark 条件_pyspark

發布時間:2024/1/1 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pyspark 条件_pyspark 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

win7 + spark + hive + python集成

通過win7使用spark的pyspark訪問hive

1、安裝spark軟件包

2、復制mysql驅動

3、復制hadoop配置目錄到spark的conf下

4、復制hadoop和hive的配置文件到conf下

5.1、在pyspark腳本中添加HADOOP_CONF_DIR環境變量,指向hadoop配置目錄

set HADOOP_CONF_DIR=D:\myprogram\spark-2.1.0-bin-hadoop2.7\conf\ha

5.2、以下也要配置

set HADOOP_CONF_DIR=D:\myprogram\spark-2.1.0-bin-hadoop2.7\conf\ha

6、修改hdfs目錄權限

[centos@s101 ~]$ hdfs dfs -chmod -R 777 /user

7、在win7啟動pyspark shell,連接到yarn,在bin下

pyspark --master yarn

8、測試

>>> rdd1 = sc.textFile("/user/centos/myspark/wc")>>> rdd1.flatMap(lambda e:e.split(" ")).map(lambda e:(e,1)).reduceByKey(lambda a,b:a+b).collect()

[(u'9', 3), (u'1', 2), (u'3', 3), (u'5', 4), (u'7', 3), (u'0', 2), (u'8', 3), (u'2', 3), (u'4', 3), (u'6', 4)]>>> for i in rdd1.flatMap(lambda e:e.split(" ")).map(lambda e:(e,1)).reduceByKey(lambda a,b:a+b).collect():print i

...

(u'1', 2)

(u'9', 3)

(u'3', 3)

(u'5', 4)

(u'7', 3)

(u'0', 2)

(u'8', 3)

(u'2', 3)

(u'4', 3)

(u'6', 4)>>> spark.sql("show databases").show()+------------+

|databaseName|

+------------+

| default|

| lx|

| udtf|

+------------+

IDEA中開發pyspark程序:前提是以上步驟完成

1、創建java或scala模塊

2、進入項目結構(設置右側)--左側點modules--選myspark--右鍵add,python支持

點擊python,指定解釋器

3、在配置中指定環境變量

1、進入設置界面

2、如下配置

4、導入spark的python核心庫

5、測試

安裝:pip install py4j

#coding:utf-8#wordcountfrompyspark.context import SparkContextfrompyspark import SparkConf

conf= SparkConf().setMaster("local[*]").setAppName("")

sc= SparkContext(conf=conf)

rdd1= sc.textFile("/user/centos/myspark/wc")

rdd2= rdd1.flatMap(lambda s:s.split(" ")).map(lambda s:(s,1)).reduceByKey(lambda a,b:a+b)

lst=rdd2.collect()for i inlst:

print(i)

#sparksqlfrom pyspark.sql import *spark=SparkSession.builder.enableHiveSupport().getOrCreate()

arr= spark.sql("show databases").show()if __name__ == "__main__":

pass

總結

以上是生活随笔為你收集整理的pyspark 条件_pyspark的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。