當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python数据录入和分析_hive+python数据分析入门

發(fā)布時間：2023/12/10 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 python数据录入和分析_hive+python数据分析入门小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文作者系 leanote 的核心開發(fā)者, 多謝關(guān)注leanote.?leanote官網(wǎng), leanote github

為什么要使用hive+python來分析數(shù)據(jù)

舉個例子,

當(dāng)年沒有數(shù)據(jù)庫的時候, 人們通過編程來操作文件系統(tǒng), 這相當(dāng)于我們編寫mapreduce來分析數(shù)據(jù).

后來有了數(shù)據(jù)庫, 沒人再操作文件系統(tǒng)了(除非有其它需求), 而是直接使用sql再加一些數(shù)據(jù)的處理. 這就相當(dāng)于 hive + python了

hive + python能解決大多的需求, 除非你的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù), 此時你就回到了遠(yuǎn)古時代不得不寫mapreduce了.

而為什么不使用hive+java, hive+c, hive+...

因?yàn)?

python真是太好用了, 腳本語言, 無需編譯, 有強(qiáng)大的機(jī)器學(xué)習(xí)庫, 適合科學(xué)計算(這就是數(shù)據(jù)分析啊!!)

使用hive+python來分析數(shù)據(jù)

hive與python的分工: 使用hive sql作為python的數(shù)據(jù)源, python的輸出作為map的輸出, 再使用hive的聚合函數(shù)作為reduce.

下面使用一個例子來分析: 統(tǒng)計每個人在某日期人下吃的各種食品的數(shù)量

建表 user_foods 用戶食品表

hive>?create?table?user_foods?(user_id??string,?food_type?string,?datetime?string

)??partitioned?by(dt?string)?ROW?FORMAT?DELIMITED?FIELDS?TERMINATED?BY?'\t'?LINES?TERMINATED?BY?'\n'?STORED?AS?TEXTFILE

#?partitioned?by(dt?string)?以日期分區(qū)

#?以\n分隔,?字段與字段間以\t分隔.

根據(jù)業(yè)務(wù)需要, 因?yàn)槭前刺靵斫y(tǒng)計, 為減少分析時的數(shù)據(jù)量, 上述hive表以dt(日期)為分區(qū).

創(chuàng)建Hive表后, 會在HDFS /hive/目錄下創(chuàng)建一個與表名同名的文件夾

導(dǎo)入數(shù)據(jù)

建立分區(qū)

hive>?ALTER?TABLE?user_foods?ADD?PARTITION(dt='2014-06-07');

創(chuàng)建分區(qū)后, hdfs目錄/hive/user_foods/下多了一個df='2014-06-07'的目錄

創(chuàng)建測試數(shù)據(jù)

創(chuàng)建一個文件如data.txt, 加入測試數(shù)據(jù)

user_1food12014-06-07?09:00

user_1food12014-06-07?09:02

user_1food22014-06-07?09:00

user_2food22014-06-07?09:00

user_2food232014-06-07?09:00

導(dǎo)入數(shù)據(jù)

hive>?LOAD?DATA?LOCAL?INPATH?'/Users/life/Desktop/data.txt'?OVERWRITE?INTO?TABLE?user_foods?PARTITION(dt='2014-06-07');

導(dǎo)入成功后, 使用select * from user_foods查看下.

或使用

hive>?select?*?from?user_foods?where?user_id='user_1'

這會生成一個mapreduce

僅使用hive來分析

"統(tǒng)計每個人在某日期人下吃的各種食品的數(shù)量" ?太過簡單, 不需要python就可實(shí)現(xiàn):

hive>?select?user_id,?food_type,?count(*)?from?user_foods?where?dt='2014-06-07'?group?by?user_id,?food_type;

結(jié)果:

結(jié)合使用python

如果需要對數(shù)據(jù)清洗或更進(jìn)一步處理, 那么肯定需要自定義map, 這就可以使用python來實(shí)現(xiàn)了.

比如food2與food23認(rèn)為是同一類型食品, 此時利用python進(jìn)行數(shù)據(jù)清洗, python的腳本如下: (m.py)

#!/usr/bin/env?python

#encoding=utf-8

import?sys

if?__name__=="__main__":

#?解析每一行數(shù)據(jù)

for?line?in?sys.stdin:

#?略過空行

if?not?line?or?not?line.strip():

continue

#?這里用try?避免特殊行解析錯誤導(dǎo)致全部出錯

try:

userId,?foodType,?dt?=?line.strip().split("\t")

except:

continue

#?清洗數(shù)據(jù),?空數(shù)據(jù)略過

if?userId?==?''?or?foodType?==?'':

continue

#?清洗數(shù)據(jù)

if(foodType?==?"food23"):

foodType?=?"food2"

#?輸出,?以\t分隔,?即map的輸出

print?userId?+?"\t"?+?foodType

再使用hql結(jié)合python腳本來分析, 有以下兩步.

1. 加入python腳本, 相當(dāng)于將腳本加入到 distributed cache

2. 執(zhí)行, 使用transform和using

hive>?add?file?/Users/life/Desktop/m.py;

hive>?select?user_id,?food_type,?count(*)?from?(

select?transform?(user_id,?food_type,?datetime)?using?'python?m.py'?as?(user_id,?food_type)

from?user_foods?where?dt='2014-06-07'

)?tmp?group?by?user_id,?food_type;

結(jié)果:

python腳本調(diào)試建議

1. 首先保證腳本沒有語法錯誤, 可以執(zhí)行python m.py來驗(yàn)證

2. 確保代碼沒有其它輸出

3. 可以使用測試數(shù)據(jù)來測試腳本, 比如:

$>?cat?data.txt?|?python?m.py

user_1food1

user_1food2

user_2food2

1, 2, 3都正確后, 如果再使用hive+python有錯誤, 可能的錯誤有:

1. python腳本對數(shù)據(jù)的處理不健壯, 有些邊界條件沒有考慮, 導(dǎo)致python出現(xiàn)exception

2. 自己總結(jié)吧...

其它

上面這個例子的python腳本充當(dāng)map的角色, 當(dāng)然也可以再建立一個reduce.py來統(tǒng)計map的輸出而不使用hive的聚合函數(shù).

這是建立在hive已不能滿足你的需求之上的.

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的python数据录入和分析_hive+python数据分析入门的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Day03:文件打开；错误处理
下一篇： python中parse是什么_Pyth