日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

dataframe 空值替换为0_缓解Pandas中DataFrame占用内存过高

發布時間:2025/4/16 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 dataframe 空值替换为0_缓解Pandas中DataFrame占用内存过高 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

0 背景

在我們使用pandas進行數據處理的時候,有時候發現文件在本地明明不大,但是用pandas以DataFrame形式加載內存中的時候會占用非常高的內存,本文即解決這樣的問題。

1 原因

如果是計算機相關專業的同學,你應該知道int8,int16,int64的區別。如果你忘記了,那我們可以舉一個例子。內存相當于倉庫,數字相當于貨物,數字需要裝到箱子里才能堆到倉庫。現在有小,中,大三種箱子,我們一個個數字用小箱子就可以裝好,然后堆到倉庫去,而現在pandas的處理邏輯是,如果你不告訴用哪個箱子,我都會用最大的箱子去裝,這樣倉庫很快就滿了。OK,這就是有時候DataFrame內存占用過高的原因。

常用數據類型范圍

其他信息可以通過numpy中的函數來查看范圍

import numpy as np # 查看int16的范圍 ii16 = np.iinfo(np.int16) ii16.min -32768# 與iinfo相應,finfo可以查看float類型的范圍 fi16 = np.finfo(np.float16) fin16.min -3.4028235e+38

2 解決方法

第一種

當我們明確知道要加載數據的范圍,使用pd.read_table讀取數據時,可以用其中的dtype參數來手動指定類型。比如某一列的數據范圍肯定在0~255之中,那么我們可以指定為np.uint8類型,如果不手動指定的話默認為np.int64類型,這之間的差距巨大。

第二種

如果數據列數太多,或者不清楚數據具體范圍的話這里提供一個腳本,可以自動判斷類型,并根據類型修改數據范圍。雖然我認為這個腳本已經可以cover大部分的情況,但是仍然強烈建議你在讀懂這個腳本的基礎上,根據你的數據修改成更適合你數據的形式。

注意:代碼最初源于這里Reducing DataFrame memory size by ~65%,在Apache 2.0協議下,我對其中不太合理的地方做了些修改。

# @from: https://www.kaggle.com/arjanso/reducing-dataframe-memory-size-by-65/code # @liscense: Apache 2.0 # @author: weijian def reduce_mem_usage(props):# 計算當前內存start_mem_usg = props.memory_usage().sum() / 1024 ** 2print("Memory usage of the dataframe is :", start_mem_usg, "MB")# 哪些列包含空值,空值用-999填充。why:因為np.nan當做float處理NAlist = []for col in props.columns:# 這里只過濾了object格式,如果你的代碼中還包含其他類型,請一并過濾if (props[col].dtypes != object):print("**************************")print("columns: ", col)print("dtype before", props[col].dtype)# Integer does not support NA, therefore Na needs to be filledif not np.isfinite(props[col]).all():NAlist.append(col)props[col].fillna(-999, inplace=True) # 用-999填充# 判斷是否是int類型isInt = Falsemmax = props[col].max()mmin = props[col].min()# test if column can be converted to an integerasint = props[col].fillna(0).astype(np.int64)result = np.fabs(props[col] - asint)result = result.sum()if result < 0.01: # 絕對誤差和小于0.01認為可以轉換的,要根據task修改isInt = True# make interger / unsigned Integer datatypesif isInt:if mmin >= 0: # 最小值大于0,轉換成無符號整型if mmax <= np.iinfo(np.uint8).max:props[col] = props[col].astype(np.uint8)elif mmax <= np.iinfo(np.uint16).max:props[col] = props[col].astype(np.uint16)elif mmax <= np.iinfo(np.uint32).max:props[col] = props[col].astype(np.uint32)else:props[col] = props[col].astype(np.uint64)else: # 轉換成有符號整型if mmin > np.iinfo(np.int8).min and mmax < np.iinfo(np.int8).max:props[col] = props[col].astype(np.int8)elif mmin > np.iinfo(np.int16).min and mmax < np.iinfo(np.int16).max:props[col] = props[col].astype(np.int16)elif mmin > np.iinfo(np.int32).min and mmax < np.iinfo(np.int32).max:props[col] = props[col].astype(np.int32)elif mmin > np.iinfo(np.int64).min and mmax < np.iinfo(np.int64).max:props[col] = props[col].astype(np.int64)else:# 注意:這里對于float都轉換成float64,需要根據你的情況自己更改props[col] = props[col].astype(np.float64)print("dtype after", props[col].dtype)print(props.describe())print("********************************")print("___MEMORY USAGE AFTER COMPLETION:___")mem_usg = props.memory_usage().sum() / 1024**2print("Memory usage is: ",mem_usg," MB")print("This is ",100*mem_usg/start_mem_usg,"% of the initial size")return props, NAlist其中NAlist表明是含有空值的列表。經試驗,效果明顯,對于數值型特征非常多的數據,至少可以減少50%以上的內存占用。

Reference

1 https://www.kaggle.com/arjanso/reducing-dataframe-memory-size-by-65/code

總結

以上是生活随笔為你收集整理的dataframe 空值替换为0_缓解Pandas中DataFrame占用内存过高的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。