當(dāng)前位置：首頁(yè) > 运维知识 > 数据库 >内容正文

数据库

pandas mysql index_Pandas从入门到精通（3）- Pandas多级索引MultiIndex

發(fā)布時(shí)間：2024/9/27 数据库 77 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas mysql index_Pandas从入门到精通（3）- Pandas多级索引MultiIndex 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

首先了解一下什么是多級(jí)索引，以及它的作用，為什么要有這個(gè)玩意。

多級(jí)索引也稱為層次化索引(hierarchical indexing)，是指數(shù)據(jù)在一個(gè)軸上(行或者列)擁有多個(gè)(兩個(gè)以上)索引級(jí)別。之所以引入多級(jí)索引，在于它可以使用戶能以低維度形式處理高維度數(shù)據(jù)。這句話可能不太好理解，下面舉個(gè)栗子：

在一張二維表格中可以方便的存儲(chǔ)兩個(gè)維度的數(shù)據(jù)，比如我們現(xiàn)在有一張高三八班的期末考試成績(jī)表，第一個(gè)維度行是某個(gè)學(xué)生各科的考試成績(jī)，另一個(gè)維度列是某一科所有學(xué)生的成績(jī)

image.png

現(xiàn)在在加入一個(gè)維度：不同的班級(jí)。即如果我們想在這張表上在加上高三七班同樣的成績(jī)?cè)撛趺床僮?#xff1f;這時(shí)候我們就可以在行上在加入一個(gè)班級(jí)的維度，如下：

image.png

正常情況下，不同的班級(jí)的所有學(xué)生的成績(jī)應(yīng)該是引入不同的表格來(lái)存儲(chǔ)，即三八班和三七班是兩張表。但是引入多級(jí)索引就可以把這兩張表整合在一起，即所謂的以低維度形式處理高維度的數(shù)據(jù)。這種情況在每張表數(shù)據(jù)量不大或者字段不多的時(shí)候使用起來(lái)比較方便

1. 多級(jí)索引的創(chuàng)建

通常由兩種方式創(chuàng)建多級(jí)索引：

通過(guò)多級(jí)數(shù)組隱式創(chuàng)建

通過(guò)pd.MultiIndex顯示創(chuàng)建

下面分別舉例

方法1-隱式創(chuàng)建，即給DataFrame的index或columns參數(shù)傳遞兩個(gè)或更多的數(shù)組。

import pandas as pd

import numpy as np

from pandas import DataFrame, Series

df = DataFrame (np.random.randint ( 0 , 100 ,( 4 , 6 )),

index = ['學(xué)生' + i for i in 'ABCD'],

columns =[[ '數(shù)學(xué)' , '數(shù)學(xué)' , '語(yǔ)文' , '語(yǔ)文' , '英語(yǔ)' , '英語(yǔ)' ],

[ '期中' , '期末' , '期中' , '期末' , '期中' , '期末' ]])

上面通過(guò)在columns傳入一個(gè)二維數(shù)組來(lái)隱式創(chuàng)建多級(jí)索引，結(jié)果如下：

image.png

仔細(xì)觀察就可以發(fā)現(xiàn)上面的表格中包含學(xué)生(A/B/C/D)、科目(數(shù)學(xué)/語(yǔ)文)、考試階段(期中/期末)三個(gè)維度的信息，但是是用一張二維表格來(lái)呈現(xiàn)。

方法二 —— 通過(guò)pd.MultiIndex顯示創(chuàng)建

常用的有 from_tuples, from_arrays, from_product 三種方法，它們都是 pd.MultiIndex 對(duì)象下的函數(shù)。其中， from_product最簡(jiǎn)單，推薦使用。下面分別舉例說(shuō)明。

2.1： from_tuples指根據(jù)傳入由元組組成的列表進(jìn)行構(gòu)造：

my_tup = [('Python', '期中'),('Python', '期末'),('Java', '期中'),('Java', '期末')]

my_index = pd.MultiIndex.from_tuples(my_tup, names = ['Obj', 'time'])

pd.DataFrame(np.random.randint(60,100, (4,3)),

index = my_index,

columns = [*'ABC'])

image.png

2.2 from_arrays指根據(jù)傳入列表中，對(duì)應(yīng)層的列表進(jìn)行構(gòu)造：

arr = [[*'ABCD'], ['a', 'b'] *2]

my_index = pd.MultiIndex.from_arrays(arr, names = ['first', 'secoond'])

col = ['China', 'US', 'UK']

val = np.random.randint(50,100, (4, 3))

df = pd.DataFrame(val, index = my_index, columns = col )

image.png

2.3 from_product指根據(jù)多個(gè)列表的笛卡爾積構(gòu)造多級(jí)索引

mul_col = pd.MultiIndex.from_product([['Python', 'C++', 'Java'],['期中', '期末']])

df = DataFrame ( np . random . randint ( 0 , 100 ,( 6 , 4 )),

index = mul_col,

columns = list('ABCD'))

image.png

知識(shí)鏈接

笛卡爾積：令A(yù)和B是任意兩個(gè)集合，若序偶的第一個(gè)成員是A的元素，第二個(gè)成員是B的元素，所有這樣的序偶集合，稱為集合A和B的笛卡爾乘積或直積，記做A X B

若A={a1,a2,a3……an}，B = {b1,b2,b3,……bn}，

則A X B = {(a1,b1), (a1,b2),....(an,bn) }, 共有n*n個(gè)元素

且每個(gè)元素中a永遠(yuǎn)在前面，b永遠(yuǎn)在后面。

例如，A={a,b}, B={0,1,2}，則

A×B={(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}

B×A={(0, a), (0, b), (1, a), (1, b), (2, a), (2, b)}

總結(jié)一下多級(jí)索引MultiIndex和單極索引類似，只不過(guò)其索引中的一個(gè)元素是元組而不是單層索引中的標(biāo)量。例如上面的例子中和單極索引一樣我們可以使用index來(lái)查看索引。另外外層連續(xù)出現(xiàn)相同的值時(shí)，第一次之后出現(xiàn)的會(huì)被隱藏顯示，使結(jié)果的可讀性增強(qiáng)。

df.index

>>>

MultiIndex([('Python', '期中'),

('Python', '期末'),

( 'C++', '期中'),

( 'C++', '期末'),

( 'Java', '期中'),

( 'Java', '期末')],

)

2. 多級(jí)索引的常用操作

2.1 索引層的交換和刪除

既然是多級(jí)索引，那么必然涉及到不同層之間的順序調(diào)整。在pandas中索引層的交換由swaplevel和reorder_levels完成，前者只能交換兩個(gè)層，而后者可以交換任意層，兩者都可以指定交換的是軸是哪一個(gè)，即行索引(axis = 0)或列索引(axis = 1).為了方便舉例說(shuō)明，下面先創(chuàng)建一個(gè)多層索引的DataFrame

L1,L2,L3 = ['A','B'],['a','b'],['alpha','beta']

mul_index1 = pd.MultiIndex.from_product([L1,L2,L3], names=('Upper', 'Lower','Extra'))

L4,L5,L6 = ['C','D'],['c','d'],['cat','dog']

mul_index2 = pd.MultiIndex.from_product([L4,L5,L6], names=('Big', 'Small', 'animal'))

df_ex = pd.DataFrame(np.random.randint(-9,10,(8,8)), index=mul_index1, columns=mul_index2)

df_ex

image.png

swaplevel交換兩層

df_ex.swaplevel(0,2, axis = 1) # 列索引的第一層和最后一層互換

image.png

reorder_levels調(diào)整多層順序

df_ex.reorder_levels([2,0,1], axis = 0) # 行索引改變順序

image.png

若想要?jiǎng)h除某一層的索引，可以使用droplevel方法。同時(shí)刪除多層，可以傳入一個(gè)列表

df_ex.droplevel([0,2], axis = 0)

image.png

2.2 索引屬性的修改

常用的有rename_axis和rename，其中：

rename_axis：用于修改索引層的名字，即在使用pd.MultiIndex創(chuàng)建時(shí)傳入的names參數(shù)的值。可以傳入字典進(jìn)行修改

rename: 對(duì)索引的值進(jìn)行修改，如果是多級(jí)索引需要指定修改的層號(hào)level：

# 修改索引層的名字

df_ex.rename_axis(index={'Extra':'Extra_change'},

columns={'animal':'animal_change'})

image.png

# ranme修改索引值，index/columns均可

df_ex.rename(index = {'alpha': 'alpha_change'}, level = 2)

image.png

對(duì)于rename,傳入?yún)?shù)也可以是函數(shù)，其輸入值就是索引元素：

df_ex.rename(columns = lambda x: str.upper(x), level=2)

image.png

另外，在修改索引時(shí)還有一個(gè)map函數(shù)比較好用。它是定義在index之上的方法。與前面rename方法中層的函數(shù)式用法是類似的，只不過(guò)它傳入的不是層的標(biāo)量值，而是直接傳入索引的元組，這樣可以對(duì)整個(gè)多級(jí)索引進(jìn)行修改

例如我們將上面的索引中的小寫(xiě)轉(zhuǎn)化為大寫(xiě)，且在每個(gè)索引后加上 “_change':

df_temp = df_ex.copy()

new_idx = df_temp.index.map(lambda x: (x[0]+'_change',str.upper(x[1])+'_change', str.upper(x[2])+'_change'))

df_temp.index = new_idx

df_temp

image.png

另外，map的另外一個(gè)常用的用法是用于多層索引的壓縮，如下：

df_temp = df_ex.copy()

new_idx = df_temp.index.map(lambda x: (x[0]+'-'+x[1]+'-'+x[2]))

df_temp.index = new_idx

df_temp.head() # 將原來(lái)的三層索引壓縮為一層

image.png

自然的，也可以反向展開(kāi)：

new_idx = df_temp.index.map(lambda x:tuple(x.split('-')))

df_temp.index = new_idx

df_temp# 三層索引

image.png

好了，關(guān)于多級(jí)索引就學(xué)習(xí)這么多內(nèi)容！

參考：開(kāi)源內(nèi)容joyful-pandas，作者： Datawhale-耿遠(yuǎn)昊

另外，更多精彩內(nèi)容也可以微信搜索，并關(guān)注公眾號(hào)：‘Python數(shù)據(jù)科學(xué)家之路“ ，期待您的到來(lái)和我交流！

總結(jié)

以上是生活随笔為你收集整理的pandas mysql index_Pandas从入门到精通（3）- Pandas多级索引MultiIndex的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： java怎么设置404界面_如何使用Sp
下一篇： xamarin和mysql_Xamari