pandas mysql index_Pandas从入门到精通(3)- Pandas多级索引MultiIndex
首先了解一下什么是多級(jí)索引,以及它的作用,為什么要有這個(gè)玩意。
多級(jí)索引也稱為層次化索引(hierarchical indexing),是指數(shù)據(jù)在一個(gè)軸上(行或者列)擁有多個(gè)(兩個(gè)以上)索引級(jí)別。之所以引入多級(jí)索引,在于它可以使用戶能以低維度形式處理高維度數(shù)據(jù)。這句話可能不太好理解,下面舉個(gè)栗子:
在一張二維表格中可以方便的存儲(chǔ)兩個(gè)維度的數(shù)據(jù),比如我們現(xiàn)在有一張高三八班的期末考試成績(jī)表,第一個(gè)維度行是某個(gè)學(xué)生各科的考試成績(jī),另一個(gè)維度列是某一科所有學(xué)生的成績(jī)
image.png
現(xiàn)在在加入一個(gè)維度:不同的班級(jí)。即如果我們想在這張表上在加上高三七班同樣的成績(jī)?cè)撛趺床僮?#xff1f;這時(shí)候我們就可以在行上在加入一個(gè)班級(jí)的維度,如下:
image.png
正常情況下,不同的班級(jí)的所有學(xué)生的成績(jī)應(yīng)該是引入不同的表格來(lái)存儲(chǔ),即三八班和三七班是兩張表。但是引入多級(jí)索引就可以把這兩張表整合在一起,即所謂的以低維度形式處理高維度的數(shù)據(jù)。 這種情況在每張表數(shù)據(jù)量不大或者字段不多的時(shí)候使用起來(lái)比較方便
1. 多級(jí)索引的創(chuàng)建
通常由兩種方式創(chuàng)建多級(jí)索引:
通過(guò)多級(jí)數(shù)組隱式創(chuàng)建
通過(guò)pd.MultiIndex顯示創(chuàng)建
下面分別舉例
方法1-隱式創(chuàng)建,即給DataFrame的index或columns參數(shù)傳遞兩個(gè)或更多的數(shù)組。
import pandas as pd
import numpy as np
from pandas import DataFrame, Series
df = DataFrame (np.random.randint ( 0 , 100 ,( 4 , 6 )),
index = ['學(xué)生' + i for i in 'ABCD'],
columns =[[ '數(shù)學(xué)' , '數(shù)學(xué)' , '語(yǔ)文' , '語(yǔ)文' , '英語(yǔ)' , '英語(yǔ)' ],
[ '期中' , '期末' , '期中' , '期末' , '期中' , '期末' ]])
df
上面通過(guò)在columns傳入一個(gè)二維數(shù)組來(lái)隱式創(chuàng)建多級(jí)索引,結(jié)果如下:
image.png
仔細(xì)觀察就可以發(fā)現(xiàn)上面的表格中包含學(xué)生(A/B/C/D)、科目(數(shù)學(xué)/語(yǔ)文)、考試階段(期中/期末)三個(gè)維度的信息,但是是用一張二維表格來(lái)呈現(xiàn)。
方法二 —— 通過(guò)pd.MultiIndex顯示創(chuàng)建
常用的有 from_tuples, from_arrays, from_product 三種方法,它們都是 pd.MultiIndex 對(duì)象下的函數(shù)。其中, from_product最簡(jiǎn)單,推薦使用。下面分別舉例說(shuō)明。
2.1: from_tuples指根據(jù)傳入由元組組成的列表進(jìn)行構(gòu)造:
my_tup = [('Python', '期中'),('Python', '期末'),('Java', '期中'),('Java', '期末')]
my_index = pd.MultiIndex.from_tuples(my_tup, names = ['Obj', 'time'])
pd.DataFrame(np.random.randint(60,100, (4,3)),
index = my_index,
columns = [*'ABC'])
image.png
2.2 from_arrays指根據(jù)傳入列表中,對(duì)應(yīng)層的列表進(jìn)行構(gòu)造:
arr = [[*'ABCD'], ['a', 'b'] *2]
my_index = pd.MultiIndex.from_arrays(arr, names = ['first', 'secoond'])
col = ['China', 'US', 'UK']
val = np.random.randint(50,100, (4, 3))
df = pd.DataFrame(val, index = my_index, columns = col )
df
image.png
2.3 from_product指根據(jù)多個(gè)列表的笛卡爾積構(gòu)造多級(jí)索引
mul_col = pd.MultiIndex.from_product([['Python', 'C++', 'Java'],['期中', '期末']])
df = DataFrame ( np . random . randint ( 0 , 100 ,( 6 , 4 )),
index = mul_col,
columns = list('ABCD'))
df
image.png
知識(shí)鏈接
笛卡爾積:令A(yù)和B是任意兩個(gè)集合,若序偶的第一個(gè)成員是A的元素,第二個(gè)成員是B的元素,所有這樣的序偶集合,稱為集合A和B的笛卡爾乘積或直積,記做A X B
若A={a1,a2,a3……an},B = {b1,b2,b3,……bn},
則A X B = {(a1,b1), (a1,b2),....(an,bn) }, 共有n*n個(gè)元素
且每個(gè)元素中a永遠(yuǎn)在前面,b永遠(yuǎn)在后面。
例如,A={a,b}, B={0,1,2},則
A×B={(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}
B×A={(0, a), (0, b), (1, a), (1, b), (2, a), (2, b)}
總結(jié)一下多級(jí)索引MultiIndex和單極索引類似,只不過(guò)其索引中的一個(gè)元素是元組而不是單層索引中的標(biāo)量。例如上面的例子中和單極索引一樣我們可以使用index來(lái)查看索引。另外外層連續(xù)出現(xiàn)相同的值時(shí),第一次之后出現(xiàn)的會(huì)被隱藏顯示,使結(jié)果的可讀性增強(qiáng)。
df.index
>>>
MultiIndex([('Python', '期中'),
('Python', '期末'),
( 'C++', '期中'),
( 'C++', '期末'),
( 'Java', '期中'),
( 'Java', '期末')],
)
2. 多級(jí)索引的常用操作
2.1 索引層的交換和刪除
既然是多級(jí)索引,那么必然涉及到不同層之間的順序調(diào)整。在pandas中索引層的交換由swaplevel和reorder_levels完成,前者只能交換兩個(gè)層,而后者可以交換任意層,兩者都可以指定交換的是軸是哪一個(gè),即行索引(axis = 0)或列索引(axis = 1).為了方便舉例說(shuō)明,下面先創(chuàng)建一個(gè)多層索引的DataFrame
L1,L2,L3 = ['A','B'],['a','b'],['alpha','beta']
mul_index1 = pd.MultiIndex.from_product([L1,L2,L3], names=('Upper', 'Lower','Extra'))
L4,L5,L6 = ['C','D'],['c','d'],['cat','dog']
mul_index2 = pd.MultiIndex.from_product([L4,L5,L6], names=('Big', 'Small', 'animal'))
df_ex = pd.DataFrame(np.random.randint(-9,10,(8,8)), index=mul_index1, columns=mul_index2)
df_ex
image.png
swaplevel交換兩層
df_ex.swaplevel(0,2, axis = 1) # 列索引的第一層和最后一層互換
image.png
reorder_levels調(diào)整多層順序
df_ex.reorder_levels([2,0,1], axis = 0) # 行索引改變順序
image.png
若想要?jiǎng)h除某一層的索引,可以使用droplevel方法。同時(shí)刪除多層,可以傳入一個(gè)列表
df_ex.droplevel([0,2], axis = 0)
image.png
2.2 索引屬性的修改
常用的有rename_axis和rename,其中:
rename_axis:用于修改索引層的名字,即在使用pd.MultiIndex創(chuàng)建時(shí)傳入的names參數(shù)的值。可以傳入字典進(jìn)行修改
rename: 對(duì)索引的值進(jìn)行修改,如果是多級(jí)索引需要指定修改的層號(hào)level:
# 修改索引層的名字
df_ex.rename_axis(index={'Extra':'Extra_change'},
columns={'animal':'animal_change'})
image.png
# ranme修改索引值,index/columns均可
df_ex.rename(index = {'alpha': 'alpha_change'}, level = 2)
image.png
對(duì)于rename,傳入?yún)?shù)也可以是函數(shù),其輸入值就是索引元素:
df_ex.rename(columns = lambda x: str.upper(x), level=2)
image.png
另外,在修改索引時(shí)還有一個(gè)map函數(shù)比較好用。它是定義在index之上的方法。與前面rename方法中層的函數(shù)式用法是類似的,只不過(guò)它傳入的不是層的標(biāo)量值,而是直接傳入索引的元組,這樣可以對(duì)整個(gè)多級(jí)索引進(jìn)行修改
例如我們將上面的索引中的小寫(xiě)轉(zhuǎn)化為大寫(xiě),且在每個(gè)索引后加上 “_change':
df_temp = df_ex.copy()
new_idx = df_temp.index.map(lambda x: (x[0]+'_change',str.upper(x[1])+'_change', str.upper(x[2])+'_change'))
df_temp.index = new_idx
df_temp
image.png
另外,map的另外一個(gè)常用的用法是用于多層索引的壓縮,如下:
df_temp = df_ex.copy()
new_idx = df_temp.index.map(lambda x: (x[0]+'-'+x[1]+'-'+x[2]))
df_temp.index = new_idx
df_temp.head() # 將原來(lái)的三層索引壓縮為一層
image.png
自然的,也可以反向展開(kāi):
new_idx = df_temp.index.map(lambda x:tuple(x.split('-')))
df_temp.index = new_idx
df_temp# 三層索引
image.png
好了,關(guān)于多級(jí)索引就學(xué)習(xí)這么多內(nèi)容!
參考:開(kāi)源內(nèi)容joyful-pandas, 作者: Datawhale-耿遠(yuǎn)昊
另外,更多精彩內(nèi)容也可以微信搜索,并關(guān)注公眾號(hào):‘Python數(shù)據(jù)科學(xué)家之路“ ,期待您的到來(lái)和我交流!
總結(jié)
以上是生活随笔為你收集整理的pandas mysql index_Pandas从入门到精通(3)- Pandas多级索引MultiIndex的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java怎么设置404界面_如何使用Sp
- 下一篇: xamarin和mysql_Xamari