當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pig的安装、pig的数据模型和pig的常用命令

發布時間：2023/12/20 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 pig的安装、pig的数据模型和pig的常用命令小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、解壓pig的安裝到到安裝位置

tar -zxvf pig-***.jar -C 你的安裝目錄

2、配置環境變量

vim ~/.bash_profile

3、運行pig

pig的運行方式有倆種，這兩種方式取決于他們處理文件在什么上面，如果處理的文件在本地linux目錄中那么就是本地模式，如果

處理的是hdfs上的文件那么就是集群模式。所以總結為倆種模式，本地模式和集群模式。

本地模式的啟動方式：處理的是本地Linux的文件，不是HDFS

啟動命令：pig -x local

通過打印的日志Connecting to hadoop file system at: file:///可以看到是鏈接的就是本地的文件

集群模式：操作的就是HDFS

需要配置一個環境變量：指向Hadoop的配置文件的目錄
??PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
? export PIG_CLASSPATH

啟動命令：pig

從啟動命令后打印的日志，pig鏈接的是hdfs

pig的數據模型其實pig的表的結構

pig表叫做bag，bag又是有tuple組成。

tuple中有可以嵌套bag

pig有幾個注意的點：

? ?pig的表中的每個tuple可以不是一樣的，可以有不同的列

? ?pig允許表的嵌套

? ?pig物理存儲的數據模型是json數據

? ?ls? cd? cat? mkdir? pwd：在pig的集群模式下是操作的是hdfs上的文件，這幾個操作命令要比使用hdfs的命令快很多

? copyFromLocal? copyToLocal：這個是用來在本地和hdfs集群上來回的拷貝文件的

? sh：這個是用來在pig集群命令行模式下操作本地文件的

? ?register define：register是為了注冊jar到pig中，define是為了給取別名用的

以上是生活随笔為你收集整理的pig的安装、pig的数据模型和pig的常用命令的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。