日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop3 Hive Spark完整安装与实践

發布時間:2023/12/10 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop3 Hive Spark完整安装与实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據實踐 Hadoop3 Hive Spark完全安裝

  • 在下載目錄下打開終端,移動下載好的文件到/usr/local

    sudo mv 文件名 /usr/local
  • 在/usr/local中解壓文件

    cd /usr/local sudo tar -zxvf 文件名
  • 改個名

    sudo mv 文件名 簡稱
  • 安裝一些工具

    sudo apt-get update sudo apt-get install -y openssh-client openssh-server vim ssh unzip
  • 安裝java

    sudo apt install openjdk-8-jdk openjdk-8-jre
  • 配置java環境變量

    sudo gedit ~/.bashrc

    在最后添加

    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre

    保存退出后刷新、驗證

    source ~/.bashrc java -version
  • Lab 1

    Hadoop配置

  • 給文件夾添加最高權限

    sudo chmod 777 /usr/local/hadoop
  • 給hadoop添加環境變量

    sudo gedit ~/.bashrc

    在最后添加

    export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

    保存退出后刷新、驗證

    source ~/.bashrc hadoop version
  • 給HDFS的NameNode和DataNode建立文件夾,建立保存日志的文件夾

    mkdir -p $HADOOP_HOME/hdfs/namenode mkdir -p $HADOOP_HOME/hdfs/datanode mkdir $HADOOP_HOME/logs
  • 進入hadoop的配置文件夾

    cd $HADOOP_HOME/etc/hadoop ls
  • 在Hadoop-env.sh中添加JAVA_HOME

    gedit hadoop-env.sh

    在最后添加

    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

    保存退出

  • 配置core-site.xml

    gedit core-site.xml

    在<configuration>中添加

    <property><name>fs.defaultFS</name><value>hdfs://bigdata-master:9000/</value></property>

    保存退出

  • 配置hdfs-site.xml

    gedit hdfs-site.xml

    在<configuration>中添加

    <property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hdfs/namenode</value><description>NameNode directory for namespace and transaction logs storage.</description></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hdfs/datanode</value><description>DataNode directory</description></property><property><name>dfs.replication</name><value>2</value></property>

    保存退出

  • 配置mapred-site.xml

    gedit mapred-site.xml

    在<configuration>中添加

    <property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property>

    保存退出

  • 配置yarn-site.xml

    gedit yarn-site.xml

    在<configuration>中添加

    <property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.resourcemanager.hostname</name><value>bigdata-master</value></property>

    保存退出

  • 調整log level (optional)

    gedit log4j.properties

    在最后添加

    log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

    保存退出

  • 免密碼登陸

    ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys
  • 初始化Namenode

    hdfs namenode -format
  • 重啟一下ssh

    sudo /etc/init.d/ssh restart
  • 運行hadoop

    start-all.sh
  • 查看進程

    jps

    打開瀏覽器,地址欄輸入localhost:9870

  • HDFS操作

  • 在圖形界面的Utilities-Browse the file system可以看到可視化的HDFS文件目錄

    [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-y3LvqMsR-1604631818431)(/Users/yiger/Library/Application Support/typora-user-images/截屏2020-11-05 下午2.54.01.png)]

  • 添加一個目錄

    hadoop fs -mkdir /user/用戶名/wordcount/input
  • 上傳一個文件到該HDFS目錄中(以README.txt為例)

    cd $HADOOP_HOME hadoop fs -copyFromLocal README.txt /user/用戶名/wordcount/input # hadoop fs -ls -R
  • MapReduce操作 (optional)

    Lab2

    Hive配置

  • 給文件夾添加最高權限

    sudo chmod 777 /usr/local/hive
  • 給hadoop添加環境變量

    sudo gedit ~/.bashrc

    在最后添加

    export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin

    保存退出后刷新、驗證

    source ~/.bashrc hive --version

    [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-V43bAb7q-1604631818434)(/Users/yiger/Desktop/截屏2020-11-05 下午3.26.41.png)]

  • 進入hive的配置文件夾

    cd $HIVE_HOME/conf ls
  • 重命名模板文件并復制一個用戶自定義配置文件hive-site.xml

    mv hive-default.xml.template hive-default.xml cp hive-default.xml hive-site.xml
  • 編輯hive-site.xml

    gedit hive-site.xml

    在<configuration>中添加

    <property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value><description>username to use against metastore database</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>密碼</value><description>password to use against metastore database</description></property>

    密碼設置盡量復雜,如:Mysql@123

    保存后退出

  • 安裝mysql

    sudo apt-get install mysql-server

    進入mysql shell創建用戶并授權

    sudo mysql

    查看當前database、用戶

    show databases; select user from mysql.user;

    如果有Navicat、DataGrip等工具可以建立一個允許全網訪問的用戶’external_test’@’%'并在本機上嘗試連接

    添加一個hive用戶并授最高權限,檢查用戶表

    grant all privileges on *.* to 'hive'@'localhost' identified by '密碼'; select user from mysql.user;

    退出exit;

  • 配置mysql jdbc

    在虛擬機中打開https://dev.mysql.com/downloads/connector/j/選擇對應版本下載

  • 解壓到/usr/local/mysql_jdbc目錄

    sudo dpkg-deb --extract 文件名 /usr/local/mysql_jdbc

    進入解壓好的文件夾并找到jar包

    cd /usr/local/mysql_jdbc/usr/share/java ls

    把這個jar包拷貝到hive里

    cp 文件名 /usr/local/hive/lib
  • 重啟mysql并進入shell

    service mysql stop service mysql start sudo mysql

    創建數據庫

    create database hive; show databases;
  • 刪除版本沖突的包

    cd /usr/local/hive/lib rm -rf guava-19.0.jar

    利用schematool初始化元數據配置 更改到mysql中

    schematool -dbType mysql -initSchema

    啟動hive

    hive
  • Hive操作

  • 查看數據庫

    show databases;
  • 創建數據庫

    create database test_hive;

    在hdfs中查看

  • 創建表

    create table if not exists usr( id bigint, name string, age int);
  • 查看表

    show tables in test_hive;
  • 刪庫

    drop database test_hive;
  • Lab3

    Spark配置

  • 給文件夾添加最高權限

    sudo chmod 777 /usr/local/spark
  • 給hadoop添加環境變量

    sudo gedit ~/.bashrc

    在最后添加

    export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin

    保存退出后刷新

    source ~/.bashrc
  • 進入spark的配置文件夾

    cd $SPARK_HOME/conf ls

    使用三個模板文件

    mv spark-defaults.conf.template spark-defaults.conf mv slaves.template slaves mv spark-env.sh.template spark-env.sh
  • 啟動spark并檢驗

    cd /usr/local/spark/sbin ./start-all.sh jps
  • Lab4

    SparkSQL配置

  • 進入spark的配置文件夾

    cd $SPARK_HOME/conf

    打開spark-defaults.conf

    gedit spark-defaults.conf

    在最后添加

    spark.sql.warehouse.dir hdfs://localhost:9000/user/hive/warehouse

    保存退出

  • 復制hadoop、hive配置文件到spark中

    cp /usr/local/hive/conf/hive-site.xml /usr/local/spark/conf cp /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/spark/conf cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/spark/conf

    復制jdbc到spark中

    cp /usr/local/hive/lib/mysql-connector-java-x.x.x.jar /usr/local/spark/jars
  • 啟動spark-sql

    spark-sql
  • SparkSQL操作

  • 查看數據庫

    show databases;
  • 創建數據庫

    create database test_sparksql;
  • 在hdfs中查看

  • pyspark操作

  • 進入pyspark

    pyspark
  • 統計詞頻

    textFile = spark.read.text("wordcount/input/README.txt") textFile.count()
  • 使用spark.sql執行sql語句

    df = spark.sql("show databases") df.show()
  • 建庫

    spark.sql("create database test_pyspark_sql")
  • 在hdfs中查看

  • 總結

    以上是生活随笔為你收集整理的Hadoop3 Hive Spark完整安装与实践的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。