當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

HDF5基本使用方法

發布時間：2024/9/5 综合教程 44 生活家

生活随笔收集整理的這篇文章主要介紹了 HDF5基本使用方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

HDF5, 大量(海量?)數據存儲的一種解決方案. HDF的全稱是Hiearchical Data Format, 5是版本號(未考證過TODO). 一個HDF5文件操作起來就像一個獨立的文件系統. (TODO, I/O特性, 是事件驅動的嗎?)

import h5py
import numpy as np

f = h5py.File("/home/dengdan/temp/no-use/hdftest.hdf5", "w")

它可以存儲兩類數據對象:

dataset, 類比于文件系統的文件, 可以用操作list/ndarray的方式來操作它
group, 類比于文件系統的文件夾. , 可以用操作dict的方式來操作它

dset = f.create_dataset(name = "/mydataset1", shape = (100,100), dtype= np.uint8)
print dset.shape

(100, 100)

print dset.dtype
print dset[:]

uint8
[[0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]
 ..., 
 [0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]]

hdf5以POISX文件系統的風格存儲數據對象, 每個對象都有自己的名字, 格式與linux文件路徑相同

print dset.name

/mydataset1

grp = f.create_group("subgroup")

print grp.name

/subgroup

dset2 = grp.create_dataset("another_ds", (50,), dtype='f')
print dset2.name

/subgroup/another_ds

創建dataset時若指定了上級group, 會自動創建

dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i')
print dset3.name

/subgroup2/dataset_three

整個hdf文件就像一個大字典,讀取dataset時可以根據它的name從中直接取出.

dset3_read = f['subgroup2/dataset_three']
dset3 == dset3_read

True

for name in f:
    print name
    # 只會顯示根目錄下的對象.

mydataset1
subgroup
subgroup2

def visit_file(name):
    print name
f.visit(visit_file) 
    # 顯示所有對象.

mydataset1
subgroup
subgroup/another_ds
subgroup2
subgroup2/dataset_three

dataset對象可以有自己的屬性, 但所有屬性數據的長度加起來不能超過64K, 包括屬性名字.

dset.attrs['length'] = 100
dset.attrs['name'] = 'This is a dataset'

for attr in dset.attrs:
    print attr, ":", dset.attrs[attr]

length : 100
name : This is a dataset

# Reference
* http://docs.h5py.org/en/latest/quick.html

markdown由jupyter notebook生成, note book

以上是生活随笔為你收集整理的HDF5基本使用方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。