日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

入坑-DM导论-第一章绪论笔记

發布時間:2024/9/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 入坑-DM导论-第一章绪论笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

//本學習筆記只是記錄,并未有深入思考。

1.什么是數據挖掘?

?數據挖掘是數據庫中發現必不可少的一部分。

?數據預處理主要包括(可能是最耗時的步驟):

1.融合來自多個數據源的數據

2.清洗數據以消除噪聲和重復的觀測值

3.選擇與當前數據挖掘任務相關的記錄和特征。

2.數據挖掘要解決的問題

1.可伸縮性:面對海量數據,算法必須是可伸縮的。例如:當藥不能處理的數據放入內存的時候,需要非內存算法;使用抽樣技術或者開發并行和分布算法也可提高伸縮性。

2.高維性:具有成百上千的屬性的數據集也很常見,比如基因特征;并且由于維度的增加,算法計算復雜度將會迅速升高。

3.異種數據和復雜數據:即非傳統的數據類型:如包含半結構化的文本和超鏈接的Web頁面,

4.數據所有權與分布:數據在地理上分屬于多個站點和機構,需要開發分布式數據挖掘技術,

5.非傳統分析:傳統的統計方法基于假設-檢驗模式,但目前的數據分析需要的假設量太大,那么需要自動地產生假設和評估。

圖中給出了數據挖掘和其他學科的關系。

1.3數據挖掘任務

?預測任務:根據其他屬性的值,預測特定屬性的值。

描述任務:導出數據中潛在能夠描述關系的模式(相關、趨勢、聚類、軌跡和異常),這通常是探查性的,需要進行驗證和解釋。?

根據數據類型可以分為:

分類:對離散型數據

回歸:對連續型數據

2.分析方式概括

預測任務比如對鳶尾花進行分類。

關聯分析:用于發現數據中強關聯的特征;比如找出功能相關的基因組,發現購物者同時購買的商品等。

聚類分析:發現緊密相關的觀測值組群,對顧客進行分組。

異常檢測:識別特征顯著不同于其他特征的觀測值;檢測欺詐軟件、網絡攻擊等;

?

轉載于:https://www.cnblogs.com/BlueBlueSea/p/9545381.html

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的入坑-DM导论-第一章绪论笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。