日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】Facets:评估机器学习数据集质量利器 (来自Google、可交互、可可视化)...

發布時間:2025/3/12 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习】Facets:评估机器学习数据集质量利器 (来自Google、可交互、可可视化)... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

好的數據集質量,決定后續模型的上限 (Better data leads to better models),那么怎么快速評估數據集的質量了?

本文分享的Facets,是一款由Google開源、快速評估數據集質量的神器;

Facets包含2個組件:

  • facets overview:outlier檢測、數據集間各特征分布比較

  • facets dive:交互式探索某一特定數據細節。


安裝

pip?install?facets-overview

facets overview

以一個案例簡單介紹使用方法,

#?1、生成數據源 import?pandas?as?pdfeatures?=?["Age",?"Workclass",?"fnlwgt",?"Education",?"Education-Num","Marital?Status",?"Occupation",?"Relationship",?"Race",?"Sex","Capital?Gain",?"Capital?Loss",?"Hours?per?week",?"Country",?"Target" ] train_data?=?pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data",names=features,sep=r'\s*,\s*',engine='python',na_values="?") test_data?=?pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test",names=features,sep=r'\s*,\s*',skiprows=[0],engine='python',na_values="?")#?2、GenericFeatureStatisticsGenerator()和ProtoFromDataFrames()函數存儲數據集的所有統計信息 from?facets_overview.generic_feature_statistics_generator?import?GenericFeatureStatisticsGenerator import?base64gfsg?=?GenericFeatureStatisticsGenerator() proto?=?gfsg.ProtoFromDataFrames([{'name':?'train','table':?train_data },?{'name':?'test','table':?test_data }]) protostr?=?base64.b64encode(proto.SerializeToString()).decode("utf-8")#?3、生成HTML并可視化結果 from?IPython.core.display?import?display,?HTMLHTML_TEMPLATE?=?"""<script?src="https://cdnjs.cloudflare.com/ajax/libs/webcomponentsjs/1.3.3/webcomponents-lite.js"></script><link?rel="import"?href="https://raw.githubusercontent.com/PAIR-code/facets/1.0.0/facets-dist/facets-jupyter.html"?><facets-overview?id="elem"></facets-overview><script>document.querySelector("#elem").protoInput?=?"{protostr}";</script>""" html?=?HTML_TEMPLATE.format(protostr=protostr) display(HTML(html))

以上結果可非常方便的展示train//test數據集的偏斜情況、缺失值情況等等。


facets dive

同樣以一個案例簡單介紹使用方法,

import?base64 import?urllib.request import?os import?pandas?as?pd#?數據準備 img_url?=?"https://storage.googleapis.com/what-if-tool-resources/misc-resources/fmnist_sprite_atlas.png" img_name?=?os.path.basename(img_url) urllib.request.urlretrieve(img_url,?img_name)df_fmnist?=?pd.read_csv("https://storage.googleapis.com/what-if-tool-resources/misc-resources/fmnist.csv" ) with?open("fmnist_sprite_atlas.png",?"rb")?as?image_file:encoded_string?=?base64.b64encode(image_file.read())#?生成HTML并可視化展示 from?IPython.core.display?import?display,?HTMLjsonstr?=?df_fmnist.to_json(orient='records') HTML_TEMPLATE?=?"""<script?src="https://cdnjs.cloudflare.com/ajax/libs/webcomponentsjs/1.3.3/webcomponents-lite.js"></script><link?rel="import"?href="https://raw.githubusercontent.com/PAIR-code/facets/1.0.0/facets-dist/facets-jupyter.html">??????<facets-dive?id="elem"?height="1000"?sprite-image-width="28"?sprite-image-height="28"?atlas-url="data:image/png;base64,{encoded_string}"></facets-dive>?#調用facets-dive?<script>var?data?=?{jsonstr};document.querySelector("#elem").data?=?data;</script>""" html?=?HTML_TEMPLATE.format(jsonstr=jsonstr,encoded_string=encoded_string.decode("utf-8")) display(HTML(html))

參考&進一步學習👉👉https://github.com/PAIR-code/facets

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件

本站qq群554839127,加入微信群請掃碼:

總結

以上是生活随笔為你收集整理的【机器学习】Facets:评估机器学习数据集质量利器 (来自Google、可交互、可可视化)...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。