日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】UMAP:强大的可视化降维工具

發(fā)布時(shí)間:2025/3/12 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习】UMAP:强大的可视化降维工具 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:杰少

UMAP:強(qiáng)大的可視化&異常檢測工具

簡介

數(shù)據(jù)降維最為重要的是降低數(shù)據(jù)的維度的同時(shí)盡可能保有大量的原始信息,而其中最為大家熟知的是PCA和tSNE,但是這二者都存在一些問題,

  • PCA的速度相對很快,但代價(jià)是數(shù)據(jù)縮減后會丟很多底層的結(jié)構(gòu)信息;

  • tSNE可以保留數(shù)據(jù)的底層結(jié)構(gòu),但速度非常慢;

  • UMAP是2018年被提出的降維和可視化算法,它使用Uniform流形近似和投影(UMAP),既可以獲得PCA的速度優(yōu)勢,同時(shí)還可以保留盡可能多的數(shù)據(jù)信息,而且其可視化效果也非常美觀,如下:

    除此之外,UMAP在很多競賽中也得到了廣泛應(yīng)用,比如在高維數(shù)據(jù)集中更快更準(zhǔn)確的進(jìn)行異常值檢測。

    UMAP

    Uniform Manifold Approximation and Projection (UMAP) 是一種降維技術(shù),它不僅可以進(jìn)行降維,而且可用于可視化,類似于t-SNE,也可用于一般非線性降維。UMAP基于對數(shù)據(jù)的三個(gè)假設(shè)

  • 數(shù)據(jù)均勻分布在黎曼流形上(Riemannian manifold);

  • 黎曼度量是局部const(或可以近似為局部const);

  • 流形是局部連接的。

  • 根據(jù)這些假設(shè),可以用模糊拓?fù)浣Y(jié)構(gòu)對流形進(jìn)行建模。UMAP的優(yōu)點(diǎn)包括:

  • 速度很快,相較于tSNE等快了非常多;

  • 因?yàn)楸A袅吮M可能多的數(shù)據(jù)信息,其可視化效果更好;

  • 還可以用于異常檢測等;

  • 但UMAP的問題在于RAM消耗可能有些大。尤其是在裝配和創(chuàng)建連接圖等圖表時(shí),UMAP會消耗大量內(nèi)存。

    代碼

    01

    UMAP可視化

    import?umap import?umap.plot??? from?sklearn.impute?import?SimpleImputer from?sklearn.pipeline?import?make_pipeline from?sklearn.preprocessing?import?QuantileTransformerpipe?=?make_pipeline(SimpleImputer(),?QuantileTransformer()) X_processed?=?pipe.fit_transform(X)? manifold?=?umap.UMAP().fit(X_processed,?y) umap.plot.points(manifold,?labels=y,?theme="fire")

    02

    和IsolationForest一起做異常檢測

    from?sklearn.ensemble?import?IsolationForest pipe?=?make_pipeline(SimpleImputer(),?QuantileTransformer(),?umap.UMAP(n_components=5)) X_processed?=?pipe.fit_transform(X)#?Fit?IsolationForest?and?predict?labels iso?=?IsolationForest(n_estimators=500,?n_jobs=9) labels?=?iso.fit_predict(X_processed)

    適用問題

    涉及到數(shù)據(jù)降維,數(shù)據(jù)可視化以及異常檢測等都可以考慮使用。

    參考文獻(xiàn)

  • 8 Booming Data Science Libraries You Must Watch Out For in 2022

  • https://umap-learn.readthedocs.io/en/latest/

  • How to Analyze 100-Dimensional Data with UMAP in Breathtakingly Beautiful Ways

  • 往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載本站qq群955171419,加入微信群請掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【机器学习】UMAP:强大的可视化降维工具的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。