當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

pandas处理大数据的一些小技巧

發(fā)布時(shí)間：2024/1/23 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas处理大数据的一些小技巧小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大文本數(shù)據(jù)的讀寫

有時(shí)候我們會(huì)拿到一些很大的文本文件，完整讀入內(nèi)存，讀入的過程會(huì)很慢，甚至可能無法讀入內(nèi)存，或者可以讀入內(nèi)存，但是沒法進(jìn)行進(jìn)一步的計(jì)算，這個(gè)時(shí)候如果我們不是要進(jìn)行很復(fù)雜的運(yùn)算，可以使用read_csv提供的chunksize或者iterator參數(shù)，來部分讀入文件，處理完之后再通過to_csv的mode=’a’，將每部分結(jié)果逐步寫入文件。

import pandas as pdinput = pd.read_csv('input.csv', chunksize=1000000)for i in input:chunk = dosomethig(input)# 進(jìn)行一些操作chunk.to_csv('output.csv', mode='a', header=False) # 記得使用header=False不然會(huì)重復(fù)寫入列名input = pd.read_csv('input.csv', iterator=True)while loop:try:chunk = reader.get_chunk(1000000)chunk.to_csv('output.csv', mode='a', header=False) # 和上面的代碼作用一樣只是通過iterator來實(shí)現(xiàn)except StopIteration:break

to_csv, to_excel的選擇

在輸出結(jié)果時(shí)統(tǒng)稱會(huì)遇到輸出格式的選擇，平時(shí)大家用的最多的.csv, .xls, .xlsx，后兩者一個(gè)是excel2003，一個(gè)是excel2007，我的經(jīng)驗(yàn)是csv>xls>xlsx，大文件輸出csv比輸出excel要快的多，xls只支持60000+條記錄，xlsx雖然支持記錄變多了，但是，如果內(nèi)容有中文常常會(huì)出現(xiàn)詭異的內(nèi)容丟失。因此，如果數(shù)量較小可以選擇xls，而數(shù)量較大則建議輸出到csv，xlsx還是有數(shù)量限制，而且大數(shù)據(jù)量的話，會(huì)讓你覺得python都死掉了

讀入時(shí)處理日期列

我之前都是在數(shù)據(jù)讀入后通過to_datetime函數(shù)再去處理日期列，如果數(shù)據(jù)量較大這又是一個(gè)浪費(fèi)時(shí)間的過程，其實(shí)在讀入數(shù)據(jù)時(shí)，可以通過parse_dates參數(shù)來直接指定解析為日期的列。它有幾種參數(shù)，TRUE的時(shí)候會(huì)將index解析為日期格式，將列名作為list傳入則將每一個(gè)列都解析為日期格式

關(guān)于to_datetime函數(shù)再多說幾句，我們拿到的時(shí)期格式常常出現(xiàn)一些亂七八糟的怪?jǐn)?shù)據(jù)，遇到這些數(shù)據(jù)to_datimetime函數(shù)默認(rèn)會(huì)報(bào)錯(cuò)，其實(shí)，這些數(shù)據(jù)是可以忽略的，只需要在函數(shù)中將errors參數(shù)設(shè)置為’ignore’就可以了。

另外，to_datetime就像函數(shù)名字顯示的，返回的是一個(gè)時(shí)間戳，有時(shí)我們只需要日期部分，我們可以在日期列上做這個(gè)修改，datetime_col = datetime_col.apply(lambda x: x.date())，用map函數(shù)也是一樣的datetime_col = datetime_col.map(lambda x: x.date())

把一些數(shù)值編碼轉(zhuǎn)化為文字

前面提到了map方法，我就又想到了一個(gè)小技巧，我們拿到的一些數(shù)據(jù)往往是通過數(shù)字編碼的，比如我們有g(shù)ender這一列，其中0代表男，1代表女。當(dāng)然我們可以用索引的方式來完成

data['gender'].ix[data['gender']==0] = u'女' data['gender'].ix[data['gender']==1] = u'男' #這里要注意一下，上面的寫法是給索引找到的列修改值，而下面的方法則不會(huì)對(duì)原有值進(jìn)行修改 data.ix[data['gender']==0]['gender'] = u'女' data.ix[data['gender']==1]['gender'] = u'男'

其實(shí)我們有更簡(jiǎn)單的方法，對(duì)要修改的列傳入一個(gè)dict，就會(huì)達(dá)到同樣的效果。

data['gender'] = data['gender'].map({0:'男', 1:'女'})

通過shift函數(shù)求用戶的相鄰兩次登錄記錄的時(shí)間差

之前有個(gè)項(xiàng)目需要計(jì)算用戶相鄰兩次登錄記錄的時(shí)間差，咋看起來其實(shí)這個(gè)需求很簡(jiǎn)單，但是數(shù)據(jù)量大起來的話，就不是一個(gè)簡(jiǎn)單的任務(wù)，拆解開來做的話，需要兩個(gè)步驟，第一步將登錄數(shù)據(jù)按照用戶分組，再計(jì)算每個(gè)用戶兩次登錄之間的時(shí)間間隔。數(shù)據(jù)的格式很單純，如下所示

uid time 111 2016-05-01 112 2016-05-02 111 2016-05-03 113 2016-05-04 113 2016-05-05 112 2016-05-06

如果數(shù)據(jù)量不大的，可以先unique uid，再每次計(jì)算一個(gè)用戶的兩次登錄間隔，類似這樣

reg_data = reg_data.sort_values(['uid', time]) # 先按照uid和time排一下序 uids = reg_data['uid'].unique() # 獲得所有的uid for u in uid:data = []uid_reg_data = reg_data.ix[reg_data['uid']]pre = Nonefor i, row in uid_reg_data.iterrows():if len(pre) = 0:pre = row['time']continuerow['days'] = (row['time'] - pre).daysdata.append(row)pre = row['time']reg_data_f = pd.DataFrame(pre)reg_data_f.to_csv('output.csv', mode='a', header=False)

這種方法雖然計(jì)算邏輯比較清晰易懂，但是缺點(diǎn)也非常明顯，計(jì)算量巨大，相當(dāng)與有多少量記錄就要計(jì)算多少次。

那么為什么說pandas的shift函數(shù)適合這個(gè)計(jì)算呢？來看一下shift函數(shù)的作用

col1 AAAA BBBB CCCC DDDD

假設(shè)我們有上面這樣是數(shù)據(jù)，如果我們使用cols.shift(1)，會(huì)得到下面的結(jié)果

col1 NaN AAAA BBBB CCCC

剛好把值向下錯(cuò)位了一位，是不是恰好是我們需要的。讓我們用shift函數(shù)來改造一下上面的代碼。

reg_data = reg_data.sort_values(['uid', time]) # 先按照uid和time排一下序 uids = reg_data['uid'].unique() # 獲得所有的uid for u in uid:data = []uid_reg_data = reg_data.ix[reg_data['uid']]uid_reg_data['pre'] = uid_reg_data['time'].shift(1)uid_reg_data['days'] = (uid_reg_data['time'] - uid_reg_data['pre']).map(lambda x:x.days)uid_reg_data.ix[~uid_reg_data['pre'].isnull()].to_csv('output.csv', mode='a', header=False)

計(jì)算量一下就減少了幾個(gè)數(shù)量級(jí)。不過在我的實(shí)際應(yīng)用場(chǎng)景中還是遠(yuǎn)遠(yuǎn)不夠，我碰到登錄日志是10億級(jí)，用戶數(shù)是千萬級(jí)的。有沒有更簡(jiǎn)單的方法，答案是有的，有一個(gè)小技巧。先上代碼。

reg_data = reg_data.sort_values(['uid', 'time']) # 先按照uid和time排一下序 reg_data['pre'] = reg_data['time'].shift(1) reg_data['uid0'] = reg_data['uid0'].shift(1) reg_data['days'] = (reg_data['time'] - reg_data['pre']).map(lambda x:x.days) reg_data_f = reg_data.ix(reg_data['uid'] == reg_data['uid0']

上面的代碼就把pandas向量化計(jì)算的優(yōu)勢(shì)發(fā)揮出來了，規(guī)避掉了計(jì)算過程中最耗費(fèi)時(shí)間的按uid循環(huán)。如果我們的uid都是一個(gè)只要排序后用shift(1)就可以取到所有前一次登錄的時(shí)間，不過真實(shí)的登錄數(shù)據(jù)中有很多的不用的uid，因此再將uid也shift一下命名為uid0，保留uid和uid0匹配的記錄就可以了。

總結(jié)

以上是生活随笔為你收集整理的pandas处理大数据的一些小技巧的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Scala之部分应用函数
下一篇： python科学计算笔记（八）panda