日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python读取hadoop库数据_使用Python访问HDFS

發布時間:2025/3/15 python 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python读取hadoop库数据_使用Python访问HDFS 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近接觸到大數據,對于Skpark和Hadoop的料及都停留在第一次聽到這個名詞時去搜一把看看大概介紹免得跟不上時代的層次。

在實際讀了點別人的代碼,又自己寫了一些之后,雖然談不上理解加深,至少對于大數據技術的整體布局有了更清晰的認識。

HDFS主要用來存儲文件系統,雖然Spark有自己的RDD,但是似乎并未被啟用。我需要的數據,是通過Spark服務啟動的計算程序,寫入HDFS中的。

#這結構怎么看都感覺有點怪。

Spark支持Java、Scala和Python開發,對我來說是個好事。唯一的問題就是如何從HDFS中讀取我需要的數據。

Python的HDFS相關包有很多,我使用的是hdfs,根據官方文檔的說法,同時支持hdfs和WebHDFS,默認創建client的方式好像是WebHDFS,

需要通過datanode進行文件操作,而HDFS則是通過namenode進行文件操作,在這里卡了很久,也換過snakebite等包,直到把端口換成datanode,才正常連接。

※參照文檔:http://fatkun.com/2014/11/httpfs-and-webhdfs.html

hdfs包的安裝命令:

sudo pip install hdfs

啟動hdfs:

>>> from hdfs.client import Client

>>> client = Client("http://localhost:50070") ?# 50070: Hadoop默認namenode

>>> dir(client)

['__class__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__module__', '__new__', '__reduce__', '__reduce_ex__', '__registry__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_append', '_append_1', '_create', '_create_1', '_delete', '_get_content_summary', '_get_file_checksum', '_get_file_status', '_get_home_directory', '_list_status', '_mkdirs', '_open', '_rename', '_request', '_session', '_set_owner', '_set_permission', '_set_replication', '_set_times', '_timeout', 'checksum', 'content', 'delete', 'download', 'from_options', 'list', 'makedirs', 'parts', 'read', 'rename', 'resolve', 'root', 'set_owner', 'set_permission', 'set_replication', 'set_times', 'status', 'upload', 'url', 'walk', 'write']

>>>

其中用到的方法有:

walk() 類似os.walk,返回值也是包含(路徑,目錄名,文件名)元素的數組,每層迭代。

read() 類似file.read,官方文檔的說法是client.read必須在with塊里使用:

with client.read(filepath) as fs:

content = fs.read()

write() 寫文件,同樣需要在with塊中使用:

client.write(filepath, data=data_str, encoding='utf-8')

還有一種寫法:

from hdfs.hfile import Hfile

hfile = Hfile(hostname, port, path, mode='w')

hfile.write(data)

hfile.close()

hfile = Hfile(hostname, port, path)

data = hfile.read()

hfile.close()

在filepath中,如果有不存在的路徑,會被直接創建出來。

目前用到的只有這些,后面如果涉及新的方法或者模塊,會繼續增加。

※ 關于Spark部署任務

Spark部署任務的命令,是spark-submit,語法是

./bin/spark-submit \

--class

--master \

--deploy-mode \

--conf = \

... # other options

\

[application-arguments]

默認可以直接使用Java程序的jar包,Scala是基于Java的,同樣可以打包成jar,對于python文件,需要在處使用--py-files定義,單個文件可以直接寫出,多個文件的話可以打包成.zip或.egg。

參考:http://spark.apache.org/docs/latest/submitting-applications.html

總結

以上是生活随笔為你收集整理的python读取hadoop库数据_使用Python访问HDFS的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: www.毛片.com | 欧美36p | a视频在线观看 | 永久免费汤不热视频 | 日韩精品免费视频 | 国产精品电影一区二区 | 爽爽窝窝午夜精品一区二区 | 粉嫩av.com | 美腿丝袜av | 波多野结衣99 | 男人午夜影院 | 在线免费黄色网址 | 麻豆一区二区在线 | 一级看片免费视频 | 国产亚洲精品久久久久久777 | 91你懂的 | 国产一区二区黑人欧美xxxx | 玖玖在线观看 | 91超碰免费在线 | 欧美午夜精品一区二区三区电影 | 黄色日批视频 | 亚洲美女屁股眼交3 | 69精品| 亚洲天堂首页 | 中文字幕乱码人妻二区三区 | 亚洲视频你懂的 | 久久久999成人 | 91天堂在线视频 | 丰满人妻一区二区三区在线 | 91福利一区| 亚洲中文无码av在线 | 欧美综合色 | www欧美在线| 91操人视频 | 色综合天天 | 国产午夜久久久 | 成人黄色网址在线观看 | 偷拍老头老太高潮抽搐 | 中国国语农村大片 | 日本欧美在线 | 日韩有码在线播放 | av55 | 免费高清av在线看 | 中文字幕精品无 | 日韩亚洲欧美一区二区三区 | 日韩精品免费观看 | 欧美日韩人妻一区二区 | 瑟瑟视频在线观看 | 欧美国产在线视频 | 欧美精品日韩在线 | 99热在线观看精品 | 91丨porny在线 | 亚洲精选久久 | 日本三级韩国三级美三级91 | 最好看的中文字幕国语电影mv | 91传媒理伦片在线观看 | 91精品国产综合久久香蕉 | 成人综合一区 | 午夜精品久久久久久毛片 | 成人在线观看免费网站 | 国产一区二区三区观看 | 超碰极品 | 伊人视屏 | 麻豆成人久久精品一区二区三区 | 精品国产va久久久久久久 | 午夜网址 | 波多野结衣在线视频播放 | 中文字幕一区视频 | 手机在线免费视频 | 欧美一级特黄视频 | 国产操比视频 | 久久天天躁狠狠躁夜夜躁2014 | 91免费看| 日批视频免费播放 | 国产精品一区二区三区不卡 | 国产色呦呦 | 日韩精品一区二区三区四区五区 | 99re这里都是精品 | 99精品网 | 手机av免费 | 蜜桃久久久久 | 亚洲无码久久久久久久 | 中国美女洗澡免费看网站 | 国产精品h | 日韩人妻一区 | 揄拍自拍| 97视频在线观看免费 | 久久久久久久久久亚洲 | 一级黄色免费视频 | 国产老头和老头xxxx× | 啪啪自拍 | 四虎在线视频免费观看 | 欧美一区二区三区成人片在线 | 国产精品久久久久久吹潮 | 香蕉a视频| 日本爽爽| 丝袜脚交国产在线观看 | 茄子视频懂你更多在线观看 | 人人爱操 | 麻豆影视在线 |