HDF5基本使用方法
HDF5, 大量(海量?)數(shù)據(jù)存儲(chǔ)的一種解決方案. HDF的全稱是Hiearchical Data Format, 5是版本號(hào)(未考證過TODO). 一個(gè)HDF5文件操作起來就像一個(gè)獨(dú)立的文件系統(tǒng). (TODO, I/O特性, 是事件驅(qū)動(dòng)的嗎?)
import h5py
import numpy as np
創(chuàng)建一個(gè)HDF5文件
f = h5py.File("/home/dengdan/temp/no-use/hdftest.hdf5", "w")
它可以存儲(chǔ)兩類數(shù)據(jù)對(duì)象:
dataset, 類比于文件系統(tǒng)的文件, 可以用操作list/ndarray的方式來操作它
group, 類比于文件系統(tǒng)的文件夾. , 可以用操作dict的方式來操作它
dataset
dset = f.create_dataset(name = "/mydataset1", shape = (100,100), dtype= np.uint8)
print dset.shape
(100, 100)
print dset.dtype
print dset[:]
uint8
[[0 0 0 ..., 0 0 0]
[0 0 0 ..., 0 0 0]
[0 0 0 ..., 0 0 0]
...,
[0 0 0 ..., 0 0 0]
[0 0 0 ..., 0 0 0]
[0 0 0 ..., 0 0 0]]
hdf5以POISX文件系統(tǒng)的風(fēng)格存儲(chǔ)數(shù)據(jù)對(duì)象, 每個(gè)對(duì)象都有自己的名字, 格式與linux文件路徑相同
print dset.name
/mydataset1
group
grp = f.create_group("subgroup")
print grp.name
/subgroup
dset2 = grp.create_dataset("another_ds", (50,), dtype='f')
print dset2.name
/subgroup/another_ds
創(chuàng)建dataset時(shí)若指定了上級(jí)group, 會(huì)自動(dòng)創(chuàng)建
dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i')
print dset3.name
/subgroup2/dataset_three
整個(gè)hdf文件就像一個(gè)大字典,讀取dataset時(shí)可以根據(jù)它的name從中直接取出.
dset3_read = f['subgroup2/dataset_three']
dset3 == dset3_read
True
for name in f:
print name
# 只會(huì)顯示根目錄下的對(duì)象.
mydataset1
subgroup
subgroup2
def visit_file(name):
print name
f.visit(visit_file)
# 顯示所有對(duì)象.
mydataset1
subgroup
subgroup/another_ds
subgroup2
subgroup2/dataset_three
dataset.attrs
dataset對(duì)象可以有自己的屬性, 但所有屬性數(shù)據(jù)的長(zhǎng)度加起來不能超過64K, 包括屬性名字.
dset.attrs['length'] = 100
dset.attrs['name'] = 'This is a dataset'
for attr in dset.attrs:
print attr, ":", dset.attrs[attr]
length : 100
name : This is a dataset
# Reference
* http://docs.h5py.org/en/latest/quick.html
markdown由jupyter notebook生成, note book
總結(jié)
以上是生活随笔為你收集整理的HDF5基本使用方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 俄罗斯是世界第几大油田和天然气田国家?
- 下一篇: 怎么创建具有真实纹理的CG场景岩石?