當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

Dataset：机器学习和深度学习中对数据集进行高级绘图(数据集可视化，箱线图等)的简介、应用之详细攻略——daidingdaiding

發(fā)布時(shí)間：2025/3/21 pytorch 69 豆豆

生活随笔收集整理的這篇文章主要介紹了 Dataset：机器学习和深度学习中对数据集进行高级绘图(数据集可视化，箱线图等)的简介、应用之详细攻略——daidingdaiding 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Dataset：機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中對(duì)數(shù)據(jù)集進(jìn)行高級(jí)繪圖(數(shù)據(jù)集可視化，箱線圖等)的簡介、應(yīng)用之詳細(xì)攻略——daidingdaiding

箱線圖

?? ? ??箱線圖(box plots)：這些圖顯示了一個(gè)小長方形，有一個(gè)紅線穿過它。紅線代表此列數(shù)據(jù)的中位數(shù)（第50 百分位數(shù)），長方形的頂和底分別表示第25 百分位數(shù)和第75 百分位數(shù)（或者第一四分位數(shù)、第三四分位數(shù)）。
?? ? ??箱線圖又叫為盒須圖(box and whisker plots)。在盒子的上方和下方有小的水平線，叫作盒須（whisker）。它們分別據(jù)盒子的上邊和下邊是四分位間距的1.4 倍，四分位間距就是第75 百分位數(shù)和第25 百分位數(shù)之間的距離，也就是從盒子的頂邊到盒子底邊的距離。也就是說盒子上面的盒須到盒子頂邊的距離是盒子高度的1.4 倍。這個(gè)盒須的1.4 倍距離是可以調(diào)整的，詳見箱線圖
的相關(guān)文檔。
?? ? ??在有些情況下，盒須要比1.4 倍距離近，這說明數(shù)據(jù)的值并沒有擴(kuò)散到原定計(jì)算出來的盒須的位置。在這種情況下，盒須被放在最極端的點(diǎn)上。在另外一些情況下，數(shù)據(jù)擴(kuò)散到遠(yuǎn)遠(yuǎn)超出計(jì)算出的盒須的位置（1.4 倍盒子高度的距離），這些點(diǎn)被認(rèn)為是異常點(diǎn)。

箱線圖的目的：一種比打印出數(shù)據(jù)更快、更直接的發(fā)現(xiàn)異常點(diǎn)的方法，但是最后一個(gè)環(huán)數(shù)屬性（最右邊的盒子）的取值范圍導(dǎo)致其他屬性都被“壓縮”了（導(dǎo)致很難看清楚）。T1、一種簡單的解決方法就是把取值范圍最大的那個(gè)屬性刪除。

T2、畫箱線圖之前采用將屬性值歸一化：因?yàn)闆]有實(shí)現(xiàn)根據(jù)取值范圍自動(dòng)縮放（自適應(yīng)）。在畫箱線圖之前將屬性值歸一化（normalization）。此處的歸一化指確定每列數(shù)據(jù)的中心，然后對(duì)數(shù)值進(jìn)行縮放，使屬性1 的一個(gè)單位值與屬性2 的一個(gè)單位值相同。在數(shù)據(jù)科學(xué)中有相當(dāng)數(shù)量的算法需要這種歸一化。例如，K-means聚類方法是根據(jù)行數(shù)據(jù)之間的向量距離來進(jìn)行聚類的。距離是對(duì)應(yīng)坐標(biāo)上的點(diǎn)相減然后取平方和。單位不同，算出來的距離也會(huì)不同。到一個(gè)雜貨店的距離以英里為單位是1 英里，以英尺為單位就是5 280 英尺。代碼清單2-11 中的歸一化是把屬性數(shù)值都轉(zhuǎn)換為均值為0、標(biāo)準(zhǔn)差為1 的分布。這是最通用的歸一化。歸一化計(jì)算用到了函數(shù)summary() 的結(jié)果。歸一化后的效果如圖2-11 所示。

? ? ? 注意歸一化到標(biāo)準(zhǔn)差1.0 并不意味著所有的數(shù)據(jù)都在?1.0 和+1.0 之間。盒子的頂邊和底邊多少都會(huì)在?1.0 和+1.0 附近，但是還有很多數(shù)據(jù)在這個(gè)邊界外。

總結(jié)

以上是生活随笔為你收集整理的Dataset：机器学习和深度学习中对数据集进行高级绘图(数据集可视化，箱线图等)的简介、应用之详细攻略——daidingdaiding的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：成功解决SyntaxError: enc
下一篇：使用lucce分词怎么_深度学习时代，分

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

pytorch

Dataset：机器学习和深度学习中对数据集进行高级绘图(数据集可视化，箱线图等)的简介、应用之详细攻略——daidingdaiding

箱線圖

總結(jié)