日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

【竞赛相关】特征/模型存储的5种方法

發(fā)布時間:2025/3/12 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【竞赛相关】特征/模型存储的5种方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Hello大家好,我是Coggle菌。今天我將繼續(xù)和大家一起學(xué)習(xí)競賽中的各種基礎(chǔ)知識點,從基礎(chǔ)庫使用到具體的比賽案例。

今天將介紹的比賽中存儲特征的幾種方法,供大家學(xué)習(xí)和選擇。

方法1:csv/txt

存儲為csv、text或者json是最為簡單的存儲格式,閱讀和解析起來非常方便。

如果使用Pandas則可以在存儲的過程中設(shè)置壓縮方法,對磁盤比較友好。

  • 場景:通用

  • 數(shù)據(jù):表格、文本

  • 文件大小:壓縮后較少

  • 讀取速度:較慢

compression_opts?=?dict(method='zip',archive_name='out.csv')?? df.to_csv('out.zip',?index=False,compression=compression_opts)

方法2:hdf

HDF(Hierarchical Data File)是能滿足各種領(lǐng)域研究需求而研制的一種能高效存儲和分發(fā)科學(xué)數(shù)據(jù)的新型數(shù)據(jù)格式。

HDF格式支持分層存儲,可以將多個變量同時存在一個HDF文件中,同時在讀取速度上也比較快。

  • 場景:通用

  • 數(shù)據(jù):表格、文本

  • 文件大小:較大

  • 讀取速度:較快

df?=?pd.DataFrame({'A':?[1,?2,?3],?'B':?[4,?5,?6]},index=['a',?'b',?'c']) df.to_hdf('data.h5',?key='df',?mode='w')

方法3:npy

如果將特征和數(shù)據(jù)處理為Numpy格式,則可以考慮存儲為Numpy中的npy或npz格式。

  • 場景:文件存儲

  • 數(shù)據(jù):矩陣

  • 文件大小:適中

  • 讀取速度:較快


1. npy文件:二進制格式

np.load()和np.save()是讀寫磁盤數(shù)組數(shù)據(jù)的兩個重要函數(shù)。使用時數(shù)組會以未壓縮的原始二進制格式保存在擴展名為.npy的文件中。

import?numpy?as?nparr=np.arange(5) np.save('test',arr)print(np.load('test.npy'))
  • npz文件:壓縮文件

  • 使用np.savez()函數(shù)可以將多個數(shù)組保存到同一個文件中。讀取.npz文件時使用np.load()函數(shù),返回的是一個類似于字典的對象,因此可以通過數(shù)組名作為關(guān)鍵字對多個數(shù)組進行訪問。

    import?numpy?as?npa?=?np.arange(5) b?=?np.arange(6) c?=?np.arange(7) np.savez('test',?a,?b,?c_array=c)??#?c_array是數(shù)組c的命名data?=?np.load('test.npz') print('arr_0?:?',?data['arr_0']) print('arr_1?:?',?data['arr_1']) print('c_array?:?',?data['c_array'])

    方法4:memmap

    NumPy實現(xiàn)了一個類似于ndarray的memmap對象,它允許將大文件分成小段進行讀寫,而不是一次性將整個數(shù)組讀入內(nèi)存。

    如果需要存儲的對象大于內(nèi)存,則可以選擇memmap進行存儲。

    • 場景:大文件存儲

    • 數(shù)據(jù):矩陣

    • 文件大小:較大、特別大

    • 讀取速度:適中

    newfp?=?np.memmap(filename,?dtype='float32',?mode='r',?shape=(3,4)) fpc[0,:]?=?0

    方法5:joblib

    類似于pkl存儲,joblib.dump可以將任意的Python對象持久化到一個文件中,并使用joblib.load進行讀取。

    • 場景:任意

    • 數(shù)據(jù):任意

    • 文件大小:適中

    • 讀取速度:適中

    from?joblib?import?load,?dumpX?=?[[0,?0],?[1,?1]] Y?=?[1,?0]dump((X,?Y),?"data.pkl") X,?Y?=?load("data.pkl")往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載黃海廣老師《機器學(xué)習(xí)課程》視頻課黃海廣老師《機器學(xué)習(xí)課程》711頁完整版課件

    本站qq群554839127,加入微信群請掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【竞赛相关】特征/模型存储的5种方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。