當(dāng)前位置：首頁 > 前端技术 > javascript >内容正文

javascript

【Python基础】嵌套 JSON 秒变 Dataframe！

發(fā)布時間：2025/3/8 javascript 26 豆豆

生活随笔收集整理的這篇文章主要介紹了【Python基础】嵌套 JSON 秒变 Dataframe！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

來源：Python數(shù)據(jù)科學(xué)

作者：東哥起飛

調(diào)用API和文檔數(shù)據(jù)庫會返回嵌套的JSON對象，當(dāng)我們使用Python嘗試將嵌套結(jié)構(gòu)中的鍵轉(zhuǎn)換為列時，數(shù)據(jù)加載到pandas中往往會得到如下結(jié)果：

df?=?pd.DataFrame.from_records（results?[“?issues”]，columns?=?[“?key”，“?fields”]）

說明：這里results是一個大的字典，issues是results其中的一個鍵，issues的值為一個嵌套JSON對象字典的列表，后面會看到JSON嵌套結(jié)構(gòu)。

問題在于API返回了嵌套的JSON結(jié)構(gòu)，而我們關(guān)心的鍵在對象中確處于不同級別。

嵌套的JSON結(jié)構(gòu)張成這樣的。

而我們想要的是下面這樣的。

下面以一個API返回的數(shù)據(jù)為例，API通常包含有關(guān)字段的元數(shù)據(jù)。假設(shè)下面這些是我們想要的字段。

key：JSON密鑰，在第一級的位置。
summary：第二級的“字段”對象。
status name：第三級位置。
statusCategory name：位于第4個嵌套級別。

如上，我們選擇要提取的字段在issues列表內(nèi)的JSON結(jié)構(gòu)中分別處于4個不同的嵌套級別，一環(huán)扣一環(huán)。

{"expand":?"schema,names","issues":?[{"fields":?{"issuetype":?{"avatarId":?10300,"description":?"","id":?"10005","name":?"New?Feature","subtask":?False},"status":?{"description":?"A?resolution?has?been?taken,?and?it?is?awaiting?verification?by?reporter.?From?here?issues?are?either?reopened,?or?are?closed.","id":?"5","name":?"Resolved","statusCategory":?{"colorName":?"green","id":?3,"key":?"done","name":?"Done",}},"summary":?"Recovered?data?collection?Defraglar?$MFT?problem"},"id":?"11861","key":?"CAE-160",},{"fields":?{? ...?more?issues],"maxResults":?5,"startAt":?0,"total":?160 }

一個不太好的解決方案

一種選擇是直接擼碼，寫一個查找特定字段的函數(shù)，但問題是必須對每個嵌套字段調(diào)用此函數(shù)，然后再調(diào)用.apply到DataFrame中的新列。

為獲取我們想要的幾個字段，首先我們提取fields鍵內(nèi)的對象至列：

df?=?(df["fields"].apply(pd.Series).merge(df,?left_index=True,?right_index?=?True) )

從上表看出，只有summary是可用的，issuetype、status等仍然埋在嵌套對象中。

下面是提取issuetype中的name的一種方法。

#?提取issue?type的name到一個新列叫"issue_type" df_issue_type?=?(df["issuetype"].apply(pd.Series).rename(columns={"name":?"issue_type_name"})["issue_type_name"] ) df?=?df.assign(issue_type_name?=?df_issue_type)

像上面這樣，如果嵌套層級特別多，就需要自己手?jǐn)]一個遞歸來實(shí)現(xiàn)了，因?yàn)槊繉忧短锥夹枰{(diào)用一個像上面解析并添加到新列的方法。

對于編程基礎(chǔ)薄弱的朋友，手?jǐn)]一個其實(shí)還挺麻煩的，尤其是對于數(shù)據(jù)分析師，著急想用數(shù)據(jù)的時候，希望可以快速拿到結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析。

下面東哥分享一個pandas的內(nèi)置解決方案。

內(nèi)置的解決方案

pandas中有一個牛逼的內(nèi)置功能叫?.json_normalize。

pandas的文檔中提到：將半結(jié)構(gòu)化JSON數(shù)據(jù)規(guī)范化為平面表。

前面方案的所有代碼，用這個內(nèi)置功能僅需要3行就可搞定。步驟很簡單，懂了下面幾個用法即可。

確定我們要想的字段，使用 . 符號連接嵌套對象。
將想要處理的嵌套列表（這里是results["issues"]）作為參數(shù)放進(jìn) .json_normalize 中。
過濾我們定義的FIELDS列表。

FIELDS?=?["key",?"fields.summary",?"fields.issuetype.name",?"fields.status.name",?"fields.status.statusCategory.name"] df?=?pd.json_normalize(results["issues"]) df[FIELDS]

沒錯，就這么簡單。

其它操作

記錄路徑

除了像上面那樣傳遞results["issues"]列表之外，我們還使用record_path參數(shù)在JSON對象中指定列表的路徑。

#?使用路徑而不是直接用results["issues"] pd.json_normalize(results,?record_path="issues")[FIELDS]

自定義分隔符

還可以使用sep參數(shù)自定義嵌套結(jié)構(gòu)連接的分隔符，比如下面將默認(rèn)的“.”替換“-”。

#?用?"-"?替換默認(rèn)的?"." FIELDS?=?["key",?"fields-summary",?"fields-issuetype-name",?"fields-status-name",?"fields-status-statusCategory-name"] pd.json_normalize(results["issues"],?sep?=?"-")[FIELDS]

控制遞歸

如果不想遞歸到每個子對象，可以使用max_level參數(shù)控制深度。在這種情況下，由于statusCategory.name字段位于JSON對象的第4級，因此不會包含在結(jié)果DataFrame中。

#?只深入到嵌套第二級 pd.json_normalize(results,?record_path="issues",?max_level?=?2)

下面是.json_normalize的pandas官方文檔說明，如有不明白可自行學(xué)習(xí)，本次東哥就介紹到這里。

pandas官方文檔：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html

原創(chuàng)不易，來個三連支持下。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取本站知識星球優(yōu)惠券，復(fù)制鏈接直接打開： https://t.zsxq.com/y7uvZF6 本站qq群704220115。加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【Python基础】嵌套 JSON 秒变 Dataframe！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【论文解读】何恺明团队最新力作SimSi
下一篇： ios传值给js_WKWebView J