pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据
作者:Paul
編者按:
pandas提供了很多常用的數(shù)學(xué)和統(tǒng)計(jì)方法,本文中將用十分詳細(xì)的例子來(lái)具體進(jìn)行介紹;另外在許多數(shù)據(jù)分析工作中,缺失數(shù)據(jù)是經(jīng)常發(fā)生的,將會(huì)具體介紹如何處理缺失數(shù)據(jù)。本文十分詳細(xì)并實(shí)在低介紹了pandas處理數(shù)據(jù)的基本方法,十分建議各位對(duì)pandas學(xué)習(xí)感興趣的同學(xué)下載代碼親自運(yùn)行進(jìn)行實(shí)際操作。
pandas 索引對(duì)象
pandas的索引對(duì)象負(fù)責(zé)管理軸標(biāo)簽和其他元數(shù)據(jù)(比如軸名稱(chēng)等)。構(gòu)建Series或DataFrame時(shí),所用到的任何數(shù)組或其他序列的標(biāo)簽都會(huì)被轉(zhuǎn)換成一個(gè)Index。
Index對(duì)象是不可修改的(immutable),因此用戶(hù)不能對(duì)其進(jìn)行修改。不可修改性非常重要,因?yàn)檫@樣才能使Index對(duì)象在多個(gè)數(shù)據(jù)結(jié)構(gòu)之間安全共享。
pandas中主要的index對(duì)象
Index的方法和屬性
實(shí)例如下
Pandas 重新索引
● 創(chuàng)建一個(gè)適應(yīng)新索引的新對(duì)象,該Series的reindex將會(huì)根據(jù)新索引進(jìn)行重排。如果某個(gè)索引值當(dāng)前不存在,就引入缺失值。
● 對(duì)于時(shí)間序列這樣的有序數(shù)據(jù),重新索引時(shí)可能需要做一些插值處理。method選項(xiàng)即可達(dá)到此目的。
reindex函數(shù)的參數(shù)
丟棄指定軸上的項(xiàng)
丟棄某條軸上的一個(gè)或多個(gè)項(xiàng)很簡(jiǎn)單,只要有一個(gè)索引數(shù)組或列表即可。由于需要執(zhí)行一些數(shù)據(jù)整理和集合邏輯,所以drop方法返回的是一個(gè)在指定軸上刪除了指定值的新對(duì)象
Pandas 索引、選取和過(guò)濾
● Series索引(obj[...])的工作方式類(lèi)似于NumPy數(shù)組的索引,只不過(guò)Series的索引值不只是整數(shù)。
● 利用標(biāo)簽的切片運(yùn)算與普通的Python切片運(yùn)算不同,其末端是包含的(inclusive)。
● 對(duì)DataFrame進(jìn)行索引其實(shí)就是獲取一個(gè)或多個(gè)列
● 為了在DataFrame的行上進(jìn)行標(biāo)簽索引,引入了專(zhuān)門(mén)的索引字段ix。
DataFrame的索引選項(xiàng)
Pandas 算術(shù)運(yùn)算和數(shù)據(jù)對(duì)齊
● 對(duì)不同的索引對(duì)象進(jìn)行算術(shù)運(yùn)算
● 自動(dòng)數(shù)據(jù)對(duì)齊在不重疊的索引處引入了NA值,缺失值會(huì)在算術(shù)運(yùn)算過(guò)程中傳播。
● 對(duì)于DataFrame,對(duì)齊操作會(huì)同時(shí)發(fā)生在行和列上。
● fill_value參數(shù)
● DataFrame和Series之間的運(yùn)算
Pandas 函數(shù)應(yīng)用和映射
● numpy的ufuncs(元素級(jí)數(shù)組方法)
● DataFrame的apply方法
● 對(duì)象的applymap方法(因?yàn)镾eries有一個(gè)應(yīng)用于元素級(jí)的map方法)
Pandas 排序和排名
● 對(duì)行或列索引進(jìn)行排序
● 對(duì)于DataFrame,根據(jù)任意一個(gè)軸上的索引進(jìn)行排序
● 可以指定升序降序
● 按值排序
● 對(duì)于DataFrame,可以指定按值排序的列
● rank函數(shù)
Pandas 帶有重復(fù)值的索引
● 對(duì)于重復(fù)索引,返回Series,對(duì)應(yīng)單個(gè)值的索引則返回標(biāo)量。
Pandas 匯總和計(jì)算描述統(tǒng)計(jì)
● 常用方法選項(xiàng)
Pandas 常用描述和匯總統(tǒng)計(jì)函數(shù)
● 數(shù)值型和非數(shù)值型的區(qū)別
● NA值被自動(dòng)排查,除非通過(guò)skipna選項(xiàng)
Pandas 匯總和計(jì)算描述統(tǒng)計(jì) 相關(guān)系數(shù)與協(xié)方差
● 相關(guān)系數(shù):相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。
● 協(xié)方差:從直觀上來(lái)看,協(xié)方差表示的是兩個(gè)變量總體誤差的期望。如果兩個(gè)變量的變化趨勢(shì)一致,也就是說(shuō)如果其中一個(gè)大于自身的期望值時(shí)另外一個(gè)也大于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是正值;如果兩個(gè)變量的變化趨勢(shì)相反,即其中一個(gè)變量大于自身的期望值時(shí)另外一個(gè)卻小于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值。
Pandas 匯總和計(jì)算描述統(tǒng)計(jì) 唯一值以及成員資格
常用方法
Pandas 處理缺失數(shù)據(jù)
● NA處理方法
● NaN(Not a Number)表示浮點(diǎn)數(shù)和非浮點(diǎn)數(shù)組中的缺失數(shù)據(jù)
● None也被當(dāng)作NA處理
Pandas 濾除缺失數(shù)據(jù)
● dropna
● 布爾索引
● DatFrame默認(rèn)丟棄任何含有缺失值的行
● how參數(shù)控制行為,axis參數(shù)選擇軸,thresh參數(shù)控制留下的數(shù)量
Pandas 填充缺失數(shù)據(jù)
● fillna
● inplace參數(shù)控制返回新對(duì)象還是就地修改
Pandas 層次化索引
● 使你能在一個(gè)軸上擁有多個(gè)(兩個(gè)以上)索引級(jí)別。抽象的說(shuō),它使你能以低緯度形式處理高維度數(shù)據(jù)。
● 通過(guò)stack與unstack變換DataFrame
重新分級(jí)順序
● 索引交換
● 索引重新排序
根據(jù)級(jí)別匯總統(tǒng)計(jì)
● 指定索引級(jí)別和軸
層次化索引 使用DataFrame的列
● 將指定列變?yōu)樗饕?/p>
● 移除或保留對(duì)象
● reset_index恢復(fù)
整數(shù)索引
● 歧義的產(chǎn)生
● 可靠的,不考慮索引類(lèi)型的,基于位置的索引。
面板(Pannel)數(shù)據(jù)
通過(guò)三維ndarray創(chuàng)建pannel對(duì)象
● 通過(guò)ix[...]選取需要的數(shù)據(jù)
● 訪問(wèn)順序:item -> major -> minor
● 通過(guò)stack展現(xiàn)面板數(shù)據(jù)
相關(guān)文章推薦
要把一件事說(shuō)的有滋有味,得要慢慢地說(shuō),不能著急,這樣才能體察人情
讀完這篇文章不過(guò)癮?請(qǐng)繼續(xù)關(guān)注我們上一期的文章,來(lái)看看我們是如何用python分析周杰倫專(zhuān)輯所有的歌詞,并用熱詞重寫(xiě)《說(shuō)好不哭》。
點(diǎn)擊藍(lán)字標(biāo)題,即可閱讀 數(shù)據(jù)科學(xué) | 分析周杰倫75775字歌詞后,我們用他最?lèi)?ài)的詞重寫(xiě)了《說(shuō)好不哭》
其他
數(shù)據(jù)科學(xué) | 避坑!Python特征重要性分析中存在的問(wèn)題
數(shù)據(jù)科學(xué) | 『運(yùn)籌OR帷幄』數(shù)據(jù)分析、可視化、爬蟲(chóng)系列教程
總結(jié)
以上是生活随笔為你收集整理的pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: SpringBoot集成Redis用法笔
- 下一篇: Wineskin