當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何使用pycharm连接Databricks

發布時間：2023/12/14 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了如何使用pycharm连接Databricks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

參照的是這篇文檔：
databricks 官方文檔：Databricks Connect

在本地使用pycharm連接databricks，大致步驟如下：

首先，為了讓本地環境能夠識別遠端的databricks集群環境，需要收集databricks的基本信息和自己databricks的token，這些信息能夠讓本地環境識別databricks；
接著，需要使用到工具 anaconda創建一個虛擬環境，連接databricks；
最后，將虛擬環境導入pycharm。

（下面的圖渣渣，因為直接拖進來的）

第0步：檢查

檢查java版本，需要時1.8開頭的版本，如果不是，請到這里下載：https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

第1步：收集databricks的信息

查看python版本 (還不知道怎么看，這里cluster的python版本為3.7)
查看Runtime Version

查看cluster ulr，解析出下面信息

生成token,點擊這個小人-user setting

最后，這是我們收集到的所有信息

port 現在是15001

第2步：安裝anaconda

如果已經安裝anaconda，請略過這一步
沒有安裝，可以看這個教程
https://blog.csdn.net/weixin_43715458/article/details/100096496

第3步：設置cluster配置

在cluster增加這個config

第4步：使用anaconda創建虛擬環境

下面的參數信息，使用第一步收集的信息
打開anaconda的命令行

創建一個3.7版本的虛擬隔離環境

conda create -n dbconnect python=3.7

使用環境

conda activate dbconnect

卸載pyspark，如果是新創建的環境，可以不用執行這步（這是為了確保，創建的環境不能有pyspark的包，因為會產生包的問題）

pip uninstall pyspark

下面開始安裝包，但是為了讓安裝速度快一些，使用清華鏡像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/ conda config --set show_channel_urls yes

查看是否切換到鏡像

conda config --show channels

可以看到已經切換

安裝connect包，第一步中確定的run的版本為6.4，故選擇6.4.* （用公司的網絡，下載很慢，我用自己的熱點）

pip install -U databricks-connect==6.4.*

連接遠端databricks，并輸入第一步收集的相關信息

databricks-connect configure

測試是否已經連接上：

databricks-connect test

已經在啟動節點了

查看databricks,可以看到

第5步：pycharm導入虛擬環境

打開pycahrm，點擊setting

選擇解釋器，點擊小齒輪的add’

選擇剛才我們創建好的dbconnect

點擊ok，可以看到已經選好了環境

不知道為啥連接不到遠端的包，我的項目還需要在本地安裝一些用的包

conda install scikit-learn==0.22.1 conda install pandas==0.24.2 conda install pyarrow==0.15.1

在pycharm測試運行一下：

import pandas as pd import numpy as np# Generate a pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3))from pyspark.sql import * spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame(pdf)print(df.head(5))

去databrick的cluster log看一下，已經啟動了節點，正在運行

總結

以上是生活随笔為你收集整理的如何使用pycharm连接Databricks的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： git+bitbucket使用备忘录
下一篇： idea变量下划线