日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

r语言 去除双引号_tidyfst vs pandas(12):去除重复条目

發布時間:2024/4/19 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 r语言 去除双引号_tidyfst vs pandas(12):去除重复条目 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者:黃天元,復旦大學博士在讀,熱愛數據科學與開源工具(R),致力于利用數據科學迅速積累行業經驗優勢和科學知識發現,涉獵內容包括但不限于信息計量、機器學習、數據可視化、應用統計建模、知識圖譜等,著有《R語言高效數據處理指南》(《R語言數據高效處理指南》(黃天元)【摘要 書評 試讀】- 京東圖書)。知乎專欄:R語言數據挖掘。郵箱:huang.tian-yuan@qq.com.歡迎合作交流。

去除重復條目,一般是指去除一個向量或數據框中重復的部分,只保留它出現第一次的條目。

Python:

import pandas as pd df = pd.read_csv('data/table.csv',index_col='ID')df.duplicated('Class').head() df.duplicated('Class',keep='last').tail() df.duplicated('Class',keep=False).head()df.drop_duplicates('Class') df.drop_duplicates('Class',keep='last') df.drop_duplicates(['School','Class'])

R:

library(tidyfst) fread("data/table.csv") -> dfduplicated(df,by = "Class") %>% head() duplicated(df,by = "Class",fromLast = T) %>% taildf %>% distinct_dt(Class,.keep_all = T) df %>% unique(by = "Class",fromLast = T) df %>% distinct_dt(School,Class,.keep_all = T)

這個功能在實現上,兩個工具大同小異。不過duplicated和unique都是data.table中的內生函數,學到了新東西。可以考慮給distinct_dt加上fromLast參數,來從數據框尾部開始去除重復值,保留其出現最后一次的條目。

往期提要:

HopeR:tidyfst vs pandas(0):環境配置

HopeR:tidyfst vs pandas(1):csv文件讀寫

HopeR:tidyfst vs pandas(2):數據文件讀寫

HopeR:tidyfst vs pandas(3):向量(序列)的使用

HopeR:tidyfst vs pandas(4):數據框的使用

HopeR:tidyfst vs pandas(5):基本函數實現

HopeR:tidyfst vs pandas(6):排序

HopeR:tidyfst vs pandas(7):索引-loc方法

HopeR:tidyfst vs pandas(8):索引-iloc方法

HopeR:tidyfst vs pandas(9):索引-`[`方法

HopeR:tidyfst vs pandas(10):索引-條件篩選(布爾索引)

HopeR:tidyfst vs pandas(11):索引-快速標量索引

總結

以上是生活随笔為你收集整理的r语言 去除双引号_tidyfst vs pandas(12):去除重复条目的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。