當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据

發(fā)布時(shí)間：2023/12/10 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：Paul

編者按：

pandas提供了很多常用的數(shù)學(xué)和統(tǒng)計(jì)方法，本文中將用十分詳細(xì)的例子來(lái)具體進(jìn)行介紹；另外在許多數(shù)據(jù)分析工作中,缺失數(shù)據(jù)是經(jīng)常發(fā)生的，將會(huì)具體介紹如何處理缺失數(shù)據(jù)。本文十分詳細(xì)并實(shí)在低介紹了pandas處理數(shù)據(jù)的基本方法，十分建議各位對(duì)pandas學(xué)習(xí)感興趣的同學(xué)下載代碼親自運(yùn)行進(jìn)行實(shí)際操作。

pandas 索引對(duì)象

pandas的索引對(duì)象負(fù)責(zé)管理軸標(biāo)簽和其他元數(shù)據(jù)（比如軸名稱(chēng)等）。構(gòu)建Series或DataFrame時(shí)，所用到的任何數(shù)組或其他序列的標(biāo)簽都會(huì)被轉(zhuǎn)換成一個(gè)Index。

Index對(duì)象是不可修改的（immutable），因此用戶(hù)不能對(duì)其進(jìn)行修改。不可修改性非常重要，因?yàn)檫@樣才能使Index對(duì)象在多個(gè)數(shù)據(jù)結(jié)構(gòu)之間安全共享。

pandas中主要的index對(duì)象

Index的方法和屬性

實(shí)例如下

Pandas 重新索引

● 創(chuàng)建一個(gè)適應(yīng)新索引的新對(duì)象，該Series的reindex將會(huì)根據(jù)新索引進(jìn)行重排。如果某個(gè)索引值當(dāng)前不存在，就引入缺失值。

● 對(duì)于時(shí)間序列這樣的有序數(shù)據(jù)，重新索引時(shí)可能需要做一些插值處理。method選項(xiàng)即可達(dá)到此目的。

reindex函數(shù)的參數(shù)

丟棄指定軸上的項(xiàng)

丟棄某條軸上的一個(gè)或多個(gè)項(xiàng)很簡(jiǎn)單，只要有一個(gè)索引數(shù)組或列表即可。由于需要執(zhí)行一些數(shù)據(jù)整理和集合邏輯，所以drop方法返回的是一個(gè)在指定軸上刪除了指定值的新對(duì)象

Pandas 索引、選取和過(guò)濾

● Series索引（obj[...]）的工作方式類(lèi)似于NumPy數(shù)組的索引，只不過(guò)Series的索引值不只是整數(shù)。

● 利用標(biāo)簽的切片運(yùn)算與普通的Python切片運(yùn)算不同，其末端是包含的（inclusive）。

● 對(duì)DataFrame進(jìn)行索引其實(shí)就是獲取一個(gè)或多個(gè)列

● 為了在DataFrame的行上進(jìn)行標(biāo)簽索引，引入了專(zhuān)門(mén)的索引字段ix。

DataFrame的索引選項(xiàng)

Pandas 算術(shù)運(yùn)算和數(shù)據(jù)對(duì)齊

● 對(duì)不同的索引對(duì)象進(jìn)行算術(shù)運(yùn)算

● 自動(dòng)數(shù)據(jù)對(duì)齊在不重疊的索引處引入了NA值，缺失值會(huì)在算術(shù)運(yùn)算過(guò)程中傳播。

● 對(duì)于DataFrame，對(duì)齊操作會(huì)同時(shí)發(fā)生在行和列上。

● fill_value參數(shù)

● DataFrame和Series之間的運(yùn)算

Pandas 函數(shù)應(yīng)用和映射

● numpy的ufuncs（元素級(jí)數(shù)組方法）

● DataFrame的apply方法

● 對(duì)象的applymap方法（因?yàn)镾eries有一個(gè)應(yīng)用于元素級(jí)的map方法）

Pandas 排序和排名

● 對(duì)行或列索引進(jìn)行排序

● 對(duì)于DataFrame，根據(jù)任意一個(gè)軸上的索引進(jìn)行排序

● 可以指定升序降序

● 按值排序

● 對(duì)于DataFrame，可以指定按值排序的列

● rank函數(shù)

Pandas 帶有重復(fù)值的索引

● 對(duì)于重復(fù)索引，返回Series，對(duì)應(yīng)單個(gè)值的索引則返回標(biāo)量。

Pandas 匯總和計(jì)算描述統(tǒng)計(jì)

● 常用方法選項(xiàng)

Pandas 常用描述和匯總統(tǒng)計(jì)函數(shù)

● 數(shù)值型和非數(shù)值型的區(qū)別

● NA值被自動(dòng)排查，除非通過(guò)skipna選項(xiàng)

Pandas 匯總和計(jì)算描述統(tǒng)計(jì) 相關(guān)系數(shù)與協(xié)方差

● 相關(guān)系數(shù)：相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。

● 協(xié)方差：從直觀上來(lái)看，協(xié)方差表示的是兩個(gè)變量總體誤差的期望。如果兩個(gè)變量的變化趨勢(shì)一致，也就是說(shuō)如果其中一個(gè)大于自身的期望值時(shí)另外一個(gè)也大于自身的期望值，那么兩個(gè)變量之間的協(xié)方差就是正值；如果兩個(gè)變量的變化趨勢(shì)相反，即其中一個(gè)變量大于自身的期望值時(shí)另外一個(gè)卻小于自身的期望值，那么兩個(gè)變量之間的協(xié)方差就是負(fù)值。

Pandas 匯總和計(jì)算描述統(tǒng)計(jì) 唯一值以及成員資格

常用方法

Pandas 處理缺失數(shù)據(jù)

● NA處理方法

● NaN（Not a Number）表示浮點(diǎn)數(shù)和非浮點(diǎn)數(shù)組中的缺失數(shù)據(jù)

● None也被當(dāng)作NA處理

Pandas 濾除缺失數(shù)據(jù)

● dropna

● 布爾索引

● DatFrame默認(rèn)丟棄任何含有缺失值的行

● how參數(shù)控制行為，axis參數(shù)選擇軸，thresh參數(shù)控制留下的數(shù)量

Pandas 填充缺失數(shù)據(jù)

● fillna

● inplace參數(shù)控制返回新對(duì)象還是就地修改

Pandas 層次化索引

● 使你能在一個(gè)軸上擁有多個(gè)（兩個(gè)以上）索引級(jí)別。抽象的說(shuō)，它使你能以低緯度形式處理高維度數(shù)據(jù)。

● 通過(guò)stack與unstack變換DataFrame

重新分級(jí)順序

● 索引交換

● 索引重新排序

根據(jù)級(jí)別匯總統(tǒng)計(jì)

● 指定索引級(jí)別和軸

層次化索引使用DataFrame的列

● 將指定列變?yōu)樗饕?/p>

● 移除或保留對(duì)象

● reset_index恢復(fù)

整數(shù)索引

● 歧義的產(chǎn)生

● 可靠的，不考慮索引類(lèi)型的，基于位置的索引。

面板(Pannel)數(shù)據(jù)

通過(guò)三維ndarray創(chuàng)建pannel對(duì)象

● 通過(guò)ix[...]選取需要的數(shù)據(jù)

● 訪問(wèn)順序：item -> major -> minor

● 通過(guò)stack展現(xiàn)面板數(shù)據(jù)

相關(guān)文章推薦

要把一件事說(shuō)的有滋有味，得要慢慢地說(shuō)，不能著急，這樣才能體察人情

讀完這篇文章不過(guò)癮？請(qǐng)繼續(xù)關(guān)注我們上一期的文章，來(lái)看看我們是如何用python分析周杰倫專(zhuān)輯所有的歌詞，并用熱詞重寫(xiě)《說(shuō)好不哭》。

點(diǎn)擊藍(lán)字標(biāo)題，即可閱讀數(shù)據(jù)科學(xué) | 分析周杰倫75775字歌詞后，我們用他最?lèi)?ài)的詞重寫(xiě)了《說(shuō)好不哭》

其他

數(shù)據(jù)科學(xué) | 避坑！Python特征重要性分析中存在的問(wèn)題

數(shù)據(jù)科學(xué) | 『運(yùn)籌OR帷幄』數(shù)據(jù)分析、可視化、爬蟲(chóng)系列教程

總結(jié)

以上是生活随笔為你收集整理的pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： SpringBoot集成Redis用法笔
下一篇： Wineskin