Python之fastparquet:fastparquet的简介、安装、使用方法之详细攻略
生活随笔
收集整理的這篇文章主要介紹了
Python之fastparquet:fastparquet的简介、安装、使用方法之详细攻略
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Python之fastparquet:fastparquet的簡介、安裝、使用方法之詳細攻略
?
?
?
?
?
目錄
fastparquet的簡介
fastparquet的安裝
fastparquet的使用方法
1、讀取
2、寫入
?
?
?
?
fastparquet的簡介
? ? fastparquet是parquet格式的python實現,旨在集成到基于python的大數據工作流中。并非拼花地板格式的所有部分都已實現或測試,例如,請參閱下面鏈接的TODO。也就是說,fastparquet能夠讀取parquet compatibility項目中的所有數據文件。
?
?
?
fastparquet的安裝
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fastparquet
?
?
fastparquet的使用方法
1、讀取
您可以指定要加載哪些列,哪些列作為類別保留(如果數據使用字典編碼)。文件路徑可以是單個文件、指向其他數據文件的元數據文件或包含數據文件的目錄(樹)。后者通常由hive/spark輸出。
from fastparquet import ParquetFile pf = ParquetFile('myfile.parq') df = pf.to_pandas() df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])?
2、寫入
默認情況下,生成一個具有單個行組(即邏輯段)且不壓縮的單個輸出文件。目前,只支持簡單的數據類型和普通編碼,因此期望性能與numpy.savez公司.
from fastparquet import write write('outfile.parq', df) write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000],compression='GZIP', file_scheme='hive')?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的Python之fastparquet:fastparquet的简介、安装、使用方法之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Py之paddlehub:paddleh
- 下一篇: DL中版本配置问题:TensorFlow