pig的安装、pig的数据模型和pig的常用命令
pig的安裝
1、解壓pig的安裝到到安裝位置
tar -zxvf pig-***.jar -C 你的安裝目錄
2、配置環境變量
vim ~/.bash_profile
3、運行pig
pig的運行方式有倆種,這兩種方式取決于他們處理文件在什么上面,如果處理的文件在本地linux目錄中那么就是本地模式,如果
處理的是hdfs上的文件那么就是集群模式。所以總結為倆種模式,本地模式和集群模式。
本地模式的啟動方式:處理的是本地Linux的文件,不是HDFS
啟動命令:pig -x local
通過打印的日志Connecting to hadoop file system at: file:///可以看到是鏈接的就是本地的文件
集群模式:操作的就是HDFS
需要配置一個環境變量:指向Hadoop的配置文件的目錄
??PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
? export PIG_CLASSPATH
啟動命令:pig
從啟動命令后打印的日志,pig鏈接的是hdfs
pig的數據模型:
pig的數據模型其實pig的表的結構
pig表叫做bag,bag又是有tuple組成。
tuple中有可以嵌套bag
pig有幾個注意的點:
? ?pig的表中的每個tuple可以不是一樣的,可以有不同的列
? ?pig允許表的嵌套
? ?pig物理存儲的數據模型是json數據
? pig的常用命令:
? ?ls? cd? cat? mkdir? pwd:在pig的集群模式下是操作的是hdfs上的文件,這幾個操作命令要比使用hdfs的命令快很多
? copyFromLocal? copyToLocal:這個是用來在本地和hdfs集群上來回的拷貝文件的
? sh:這個是用來在pig集群命令行模式下操作本地文件的
? ?register define:register是為了注冊jar到pig中,define是為了給取別名用的
總結
以上是生活随笔為你收集整理的pig的安装、pig的数据模型和pig的常用命令的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Medusa(美杜莎)--参数及常见命令
- 下一篇: word页码设置一些问题