如何使用pycharm连接Databricks
參照的是這篇文檔:
databricks 官方文檔 :Databricks Connect
在本地使用pycharm連接databricks,大致步驟如下:
- 首先,為了讓本地環(huán)境能夠識(shí)別遠(yuǎn)端的databricks集群環(huán)境,需要收集databricks的基本信息和自己databricks的token,這些信息能夠讓本地環(huán)境識(shí)別databricks;
- 接著,需要使用到工具 anaconda創(chuàng)建一個(gè)虛擬環(huán)境,連接databricks;
- 最后,將虛擬環(huán)境導(dǎo)入pycharm。
(下面的圖渣渣,因?yàn)橹苯油线M(jìn)來(lái)的)
第0步:檢查
檢查java版本,需要時(shí)1.8開(kāi)頭的版本,如果不是,請(qǐng)到這里下載:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
第1步:收集databricks的信息
查看python版本 (還不知道怎么看,這里cluster的python版本為3.7)
查看Runtime Version
查看cluster ulr,解析出下面信息
生成token,點(diǎn)擊這個(gè)小人-user setting
最后,這是我們收集到的所有信息
port 現(xiàn)在是15001
第2步:安裝anaconda
如果已經(jīng)安裝anaconda,請(qǐng)略過(guò)這一步
沒(méi)有安裝,可以看這個(gè)教程
https://blog.csdn.net/weixin_43715458/article/details/100096496
第3步:設(shè)置cluster配置
在cluster增加這個(gè)config
第4步:使用anaconda創(chuàng)建虛擬環(huán)境
下面的參數(shù)信息,使用第一步收集的信息
打開(kāi)anaconda的命令行
創(chuàng)建一個(gè)3.7版本的虛擬隔離環(huán)境
使用環(huán)境
卸載pyspark,如果是新創(chuàng)建的環(huán)境,可以不用執(zhí)行這步(這是為了確保,創(chuàng)建的環(huán)境不能有pyspark的包,因?yàn)闀?huì)產(chǎn)生包的問(wèn)題)
下面開(kāi)始安裝包,但是為了讓安裝速度快一些,使用清華鏡像
查看是否切換到鏡像
可以看到已經(jīng)切換
安裝connect包,第一步中確定的run的版本為6.4,故選擇6.4.* (用公司的網(wǎng)絡(luò),下載很慢,我用自己的熱點(diǎn))
pip install -U databricks-connect==6.4.*
連接遠(yuǎn)端databricks,并輸入第一步收集的相關(guān)信息
測(cè)試是否已經(jīng)連接上:
已經(jīng)在啟動(dòng)節(jié)點(diǎn)了
查看databricks,可以看到
第5步:pycharm導(dǎo)入虛擬環(huán)境
打開(kāi)pycahrm,點(diǎn)擊setting
選擇解釋器,點(diǎn)擊小齒輪的add’
選擇剛才我們創(chuàng)建好的dbconnect
點(diǎn)擊ok,可以看到已經(jīng)選好了環(huán)境
不知道為啥連接不到遠(yuǎn)端的包,我的項(xiàng)目還需要在本地安裝一些用的包
conda install scikit-learn==0.22.1 conda install pandas==0.24.2 conda install pyarrow==0.15.1
在pycharm測(cè)試運(yùn)行一下:
去databrick的cluster log看一下,已經(jīng)啟動(dòng)了節(jié)點(diǎn),正在運(yùn)行
總結(jié)
以上是生活随笔為你收集整理的如何使用pycharm连接Databricks的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: git+bitbucket使用备忘录
- 下一篇: idea变量下划线