日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NumPy之:使用genfromtxt导入数据

發布時間:2024/2/28 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NumPy之:使用genfromtxt导入数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 簡介
  • genfromtxt介紹
  • 多維數組
  • autostrip
  • comments
  • 跳過行和選擇列

簡介

在做科學計算的時候,我們需要從外部加載數據,今天給大家介紹一下NumPy中非常有用的一個方法genfromtxt。genfromtxt可以分解成兩步,第一步是從文件讀取數據,并轉化成為字符串。第二步就是將字符串轉化成為指定的數據類型。

genfromtxt介紹

先看下genfromtxt的定義:

numpy.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=" !#$%&'()*+, -./:;<=>?@[\]^{|}~", replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding='bytes')

genfromtxt可以接受多個參數,這么多參數中只有fname是必須的參數,其他的都是可選的。

fname可以有多種形式,可以是file, str, pathlib.Path, list of str, 或者generator

如果是單獨的str,那么默認是本地或者遠程文件的名字。如果是list of str,那么每個str都被當做文件中的一行數據。如果傳入的是遠程的文件,這個文件會被自動下載到本地目錄中。

genfromtxt還可以自動識別文件是否是壓縮類型,目前支持兩種壓縮類型:gzip 和 bz2。

接下來我們看下genfromtxt的常見應用:

使用之前,通常需要導入兩個庫:

from io import StringIO import numpy as np

StringIO會生成一個String對象,可以作為genfromtxt的輸入。

我們先定義一個包含不同類型的StringIO:

s = StringIO(u"1,1.3,abcde")

這個StringIO包含一個int,一個float和一個str。并且分割符是 ,。

我們看下genfromtxt最簡單的使用:

In [65]: data = np.genfromtxt(s)In [66]: data Out[66]: array(nan)

因為默認的分隔符是delimiter=None,所以StringIO中的數據會被作為一個整體轉換成數組,結果就是nan。

下面我們添加一個逗號分割符:

In [67]: _ = s.seek(0)In [68]: data = np.genfromtxt(s,delimiter=",")In [69]: data Out[69]: array([1. , 1.3, nan])

這次有輸出了,但是最后一個字符串因為不能被轉換成為float,所以得到了nan。

注意,我們第一行需要重置StringIO的指針到文件的開頭。這里我們使用 s.seek(0)。

那么怎么把最后一個str也進行轉換呢?我們需要手動指定dtype:

In [74]: _ = s.seek(0)In [75]: data = np.genfromtxt(s,dtype=float,delimiter=",")In [76]: data Out[76]: array([1. , 1.3, nan])

上面我們指定了所有的數組類型都是float,我們還可以分別為數組的每個元素指定類型:

In [77]: _ = s.seek(0)In [78]: data = np.genfromtxt(s,dtype=[int,float,'S5'],delimiter=",")In [79]: data Out[79]: array((1, 1.3, b'abcde'), dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<U')])

我們分別使用int,float和str來對文件中的類型進行轉換,可以看到得到了正確的結果。

除了指定類型,我們還可以指定名字,上面的例子中,我們沒有指定名字,所以使用的是默認的f0,f1,f2。看一個指定名字的例子:

In [214]: data = np.genfromtxt(s, dtype="i8,f8,S5",names=['myint','myfloat','mystring'], delimiter=",")In [215]: data Out[215]: array((1, 1.3, b'abcde'),dtype=[('myint', '<i8'), ('myfloat', '<f8'), ('mystring', 'S5')])

分隔符除了使用字符之外,還可以使用index:

In [216]: s = StringIO(u"11.3abcde") In [217]: data = np.genfromtxt(s, dtype=None, names=['intvar','fltvar','strvar'],...: delimiter=[1,3,5])In [218]: data Out[218]: array((1, 1.3, b'abcde'),dtype=[('intvar', '<i8'), ('fltvar', '<f8'), ('strvar', 'S5')])

上面我們使用index作為s的分割。

多維數組

如果數據中有換行符,那么可以使用genfromtxt來生成多維數組:

>>> data = u"1, 2, 3\n4, 5, 6" >>> np.genfromtxt(StringIO(data), delimiter=",") array([[ 1., 2., 3.],[ 4., 5., 6.]])

autostrip

使用autostrip 可以刪除數據兩邊的空格:

>>> data = u"1, abc , 2\n 3, xxx, 4" >>> # Without autostrip >>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5") array([['1', ' abc ', ' 2'],['3', ' xxx', ' 4']], dtype='<U5') >>> # With autostrip >>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5", autostrip=True) array([['1', 'abc', '2'],['3', 'xxx', '4']], dtype='<U5')

comments

默認的comments 是 # ,數據中所有以# 開頭的都被看做是注釋。

>>> data = u"""# ... # Skip me ! ... # Skip me too ! ... 1, 2 ... 3, 4 ... 5, 6 #This is the third line of the data ... 7, 8 ... # And here comes the last line ... 9, 0 ... """ >>> np.genfromtxt(StringIO(data), comments="#", delimiter=",") array([[1., 2.],[3., 4.],[5., 6.],[7., 8.],[9., 0.]])

跳過行和選擇列

可以使用skip_header 和 skip_footer 來跳過返回的數組特定的行:

>>> data = u"\n".join(str(i) for i in range(10)) >>> np.genfromtxt(StringIO(data),) array([ 0., 1., 2., 3., 4., 5., 6., 7., 8., 9.]) >>> np.genfromtxt(StringIO(data), ... skip_header=3, skip_footer=5) array([ 3., 4.])

可以使用usecols 來選擇特定的行數:

>>> data = u"1 2 3\n4 5 6" >>> np.genfromtxt(StringIO(data), usecols=(0, -1)) array([[ 1., 3.],[ 4., 6.]])

如果列還有名字的話,可以用usecols 來選擇列的名字:

>>> data = u"1 2 3\n4 5 6" >>> np.genfromtxt(StringIO(data), ... names="a, b, c", usecols=("a", "c")) array([(1.0, 3.0), (4.0, 6.0)],dtype=[('a', '<f8'), ('c', '<f8')]) >>> np.genfromtxt(StringIO(data), ... names="a, b, c", usecols=("a, c"))array([(1.0, 3.0), (4.0, 6.0)],dtype=[('a', '<f8'), ('c', '<f8')])

本文已收錄于 http://www.flydean.com/06-python-numpy-genfromtxt/

最通俗的解讀,最深刻的干貨,最簡潔的教程,眾多你不知道的小技巧等你來發現!

歡迎關注我的公眾號:「程序那些事」,懂技術,更懂你!

總結

以上是生活随笔為你收集整理的NumPy之:使用genfromtxt导入数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。