python数据录入和分析_hive+python数据分析入门
本文作者系 leanote 的核心開發者, 多謝關注leanote.?leanote官網, leanote github
為什么要使用hive+python來分析數據
舉個例子,
當年沒有數據庫的時候, 人們通過編程來操作文件系統, 這相當于我們編寫mapreduce來分析數據.
后來有了數據庫, 沒人再操作文件系統了(除非有其它需求), 而是直接使用sql再加一些數據的處理. 這就相當于 hive + python了
hive + python能解決大多的需求, 除非你的數據是非結構化數據, 此時你就回到了遠古時代不得不寫mapreduce了.
而為什么不使用hive+java, hive+c, hive+...
因為:
python真是太好用了, 腳本語言, 無需編譯, 有強大的機器學習庫, 適合科學計算(這就是數據分析啊!!)
使用hive+python來分析數據
hive與python的分工: 使用hive sql作為python的數據源, python的輸出作為map的輸出, 再使用hive的聚合函數作為reduce.
下面使用一個例子來分析: 統計每個人在某日期人下吃的各種食品的數量
建表 user_foods 用戶食品表
hive>?create?table?user_foods?(user_id??string,?food_type?string,?datetime?string
)??partitioned?by(dt?string)?ROW?FORMAT?DELIMITED?FIELDS?TERMINATED?BY?'\t'?LINES?TERMINATED?BY?'\n'?STORED?AS?TEXTFILE
#?partitioned?by(dt?string)?以日期分區
#?以\n分隔,?字段與字段間以\t分隔.
根據業務需要, 因為是按天來統計, 為減少分析時的數據量, 上述hive表以dt(日期)為分區.
創建Hive表后, 會在HDFS /hive/目錄下創建一個與表名同名的文件夾
導入數據
建立分區
hive>?ALTER?TABLE?user_foods?ADD?PARTITION(dt='2014-06-07');
創建分區后, hdfs目錄/hive/user_foods/下多了一個df='2014-06-07'的目錄
創建測試數據
創建一個文件如data.txt, 加入測試數據
user_1food12014-06-07?09:00
user_1food12014-06-07?09:02
user_1food22014-06-07?09:00
user_2food22014-06-07?09:00
user_2food232014-06-07?09:00
導入數據
hive>?LOAD?DATA?LOCAL?INPATH?'/Users/life/Desktop/data.txt'?OVERWRITE?INTO?TABLE?user_foods?PARTITION(dt='2014-06-07');
導入成功后, 使用select * from user_foods查看下.
或使用
hive>?select?*?from?user_foods?where?user_id='user_1'
這會生成一個mapreduce
僅使用hive來分析
"統計每個人在某日期人下吃的各種食品的數量" ?太過簡單, 不需要python就可實現:
hive>?select?user_id,?food_type,?count(*)?from?user_foods?where?dt='2014-06-07'?group?by?user_id,?food_type;
結果:
結合使用python
如果需要對數據清洗或更進一步處理, 那么肯定需要自定義map, 這就可以使用python來實現了.
比如food2與food23認為是同一類型食品, 此時利用python進行數據清洗, python的腳本如下: (m.py)
#!/usr/bin/env?python
#encoding=utf-8
import?sys
if?__name__=="__main__":
#?解析每一行數據
for?line?in?sys.stdin:
#?略過空行
if?not?line?or?not?line.strip():
continue
#?這里用try?避免特殊行解析錯誤導致全部出錯
try:
userId,?foodType,?dt?=?line.strip().split("\t")
except:
continue
#?清洗數據,?空數據略過
if?userId?==?''?or?foodType?==?'':
continue
#?清洗數據
if(foodType?==?"food23"):
foodType?=?"food2"
#?輸出,?以\t分隔,?即map的輸出
print?userId?+?"\t"?+?foodType
再使用hql結合python腳本來分析, 有以下兩步.
1. 加入python腳本, 相當于將腳本加入到 distributed cache
2. 執行, 使用transform和using
hive>?add?file?/Users/life/Desktop/m.py;
hive>?select?user_id,?food_type,?count(*)?from?(
select?transform?(user_id,?food_type,?datetime)?using?'python?m.py'?as?(user_id,?food_type)
from?user_foods?where?dt='2014-06-07'
)?tmp?group?by?user_id,?food_type;
結果:
python腳本調試建議
1. 首先保證腳本沒有語法錯誤, 可以執行python m.py來驗證
2. 確保代碼沒有其它輸出
3. 可以使用測試數據來測試腳本, 比如:
$>?cat?data.txt?|?python?m.py
user_1food1
user_1food1
user_1food2
user_2food2
user_2food2
1, 2, 3都正確后, 如果再使用hive+python有錯誤, 可能的錯誤有:
1. python腳本對數據的處理不健壯, 有些邊界條件沒有考慮, 導致python出現exception
2. 自己總結吧...
其它
上面這個例子的python腳本充當map的角色, 當然也可以再建立一個reduce.py來統計map的輸出而不使用hive的聚合函數.
這是建立在hive已不能滿足你的需求之上的.
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的python数据录入和分析_hive+python数据分析入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Day03:文件打开;错误处理
- 下一篇: c语言程序代码分享,一些简单的C语言程序