日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

如何使用pycharm连接Databricks

發(fā)布時(shí)間:2023/12/14 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何使用pycharm连接Databricks 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

參照的是這篇文檔:
databricks 官方文檔 :Databricks Connect

在本地使用pycharm連接databricks,大致步驟如下:

  • 首先,為了讓本地環(huán)境能夠識(shí)別遠(yuǎn)端的databricks集群環(huán)境,需要收集databricks的基本信息和自己databricks的token,這些信息能夠讓本地環(huán)境識(shí)別databricks;
  • 接著,需要使用到工具 anaconda創(chuàng)建一個(gè)虛擬環(huán)境,連接databricks;
  • 最后,將虛擬環(huán)境導(dǎo)入pycharm。

(下面的圖渣渣,因?yàn)橹苯油线M(jìn)來(lái)的)

第0步:檢查

檢查java版本,需要時(shí)1.8開(kāi)頭的版本,如果不是,請(qǐng)到這里下載:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

第1步:收集databricks的信息

查看python版本 (還不知道怎么看,這里cluster的python版本為3.7)
查看Runtime Version

查看cluster ulr,解析出下面信息

生成token,點(diǎn)擊這個(gè)小人-user setting



最后,這是我們收集到的所有信息

port 現(xiàn)在是15001

第2步:安裝anaconda

如果已經(jīng)安裝anaconda,請(qǐng)略過(guò)這一步
沒(méi)有安裝,可以看這個(gè)教程
https://blog.csdn.net/weixin_43715458/article/details/100096496

第3步:設(shè)置cluster配置

在cluster增加這個(gè)config

第4步:使用anaconda創(chuàng)建虛擬環(huán)境

下面的參數(shù)信息,使用第一步收集的信息
打開(kāi)anaconda的命令行

創(chuàng)建一個(gè)3.7版本的虛擬隔離環(huán)境

conda create -n dbconnect python=3.7


使用環(huán)境

conda activate dbconnect


卸載pyspark,如果是新創(chuàng)建的環(huán)境,可以不用執(zhí)行這步(這是為了確保,創(chuàng)建的環(huán)境不能有pyspark的包,因?yàn)闀?huì)產(chǎn)生包的問(wèn)題)

pip uninstall pyspark


下面開(kāi)始安裝包,但是為了讓安裝速度快一些,使用清華鏡像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/ conda config --set show_channel_urls yes


查看是否切換到鏡像

conda config --show channels

可以看到已經(jīng)切換

安裝connect包,第一步中確定的run的版本為6.4,故選擇6.4.* (用公司的網(wǎng)絡(luò),下載很慢,我用自己的熱點(diǎn))

pip install -U databricks-connect==6.4.*


連接遠(yuǎn)端databricks,并輸入第一步收集的相關(guān)信息

databricks-connect configure


測(cè)試是否已經(jīng)連接上:

databricks-connect test

已經(jīng)在啟動(dòng)節(jié)點(diǎn)了


查看databricks,可以看到

第5步:pycharm導(dǎo)入虛擬環(huán)境

打開(kāi)pycahrm,點(diǎn)擊setting

選擇解釋器,點(diǎn)擊小齒輪的add’

選擇剛才我們創(chuàng)建好的dbconnect

點(diǎn)擊ok,可以看到已經(jīng)選好了環(huán)境

不知道為啥連接不到遠(yuǎn)端的包,我的項(xiàng)目還需要在本地安裝一些用的包

conda install scikit-learn==0.22.1 conda install pandas==0.24.2 conda install pyarrow==0.15.1


在pycharm測(cè)試運(yùn)行一下:

import pandas as pd import numpy as np# Generate a pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3))from pyspark.sql import * spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame(pdf)print(df.head(5))

去databrick的cluster log看一下,已經(jīng)啟動(dòng)了節(jié)點(diǎn),正在運(yùn)行

總結(jié)

以上是生活随笔為你收集整理的如何使用pycharm连接Databricks的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。