日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

学习总结之数据挖掘三大类六分项

發(fā)布時(shí)間:2023/12/4 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 学习总结之数据挖掘三大类六分项 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Data Mining可分為三大類六分項(xiàng)來說明:

ClassificationClustering屬于分類區(qū)隔類;

RegressionTime-series屬于推算預(yù)測(cè)類;

AssociationSequence則屬于序列規(guī)則類。

?

Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為?"可能會(huì)響應(yīng)"?或是?"可能不會(huì)響應(yīng)"?兩類)。Classification常被用來處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個(gè)完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來測(cè)試;譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫的部份取樣來建立一個(gè)Classification Model,再利用這個(gè)Model來對(duì)數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。

?

Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來,同時(shí)也將群內(nèi)成員的相似性找出來。ClusteringClassification不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來解讀這些分群的意義。?  

?

Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測(cè)的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。

?

Time-Series ForecastingRegression功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測(cè)未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過去與未來的關(guān)連性)。

?

Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。)

?

Sequence DiscoveryAssociation關(guān)系很密切,所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是?68%)。

?

Data Mining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉儲(chǔ)或數(shù)據(jù)庫,皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。

于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導(dǎo)入Data Mining的技術(shù)后,使直效行銷的發(fā)展性更為強(qiáng)大,例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄,結(jié)合基本數(shù)據(jù),并依其對(duì)品牌價(jià)值等級(jí)的高低來區(qū)隔顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。

近來電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè)(Fraud Detection)都很有興趣,這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非常可觀,Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易,達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用Data Mining來分析市場(chǎng)動(dòng)向,并預(yù)測(cè)個(gè)別公司的營運(yùn)以及股價(jià)走向。Data Mining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè),用來預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。

?

一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其Data Mining?對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來精簡(jiǎn)變量的因素分析(Factor Analysis用來分類的判別分析(Discriminant Analysis,以及用來區(qū)隔群體的分群分析(Cluster Analysis等,在Data Mining過程中特別常用。

?

在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CARTClassification and Regression Trees)及CHAIDChi-Square Automatic Interaction Detector)兩種?類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)?  

?

規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。

總結(jié)

以上是生活随笔為你收集整理的学习总结之数据挖掘三大类六分项的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲一区二区三区观看 | 台湾佬成人中文网222vvv | 影音先锋中文字幕一区二区 | 水蜜桃av无码 | 久久综合91| 中国一级大黄大黄大色毛片 | 亚洲视频 一区 | 一区二区三区四区免费视频 | 国产日本视频 | 免费在线色 | 18+视频在线观看 | 日韩免费av一区二区 | 国久久久 | 黄色动漫在线免费观看 | 日本理论片 | 国产小视频一区 | 中国黄色一级视频 | 国产福利精品一区 | 欧美成人激情视频 | 久久无码高潮喷水 | 欧美一a| 性做爰裸体按摩视频 | 少妇一级淫免费播放 | 日本中文字幕二区 | 欧美日韩黄色 | 亚洲一二三 | 精品无码成人久久久久久免费 | 日本黄色不卡视频 | 亚洲综合福利 | 在线播放亚洲精品 | av中文天堂在线 | 最新视频 - 88av | 伊人久久大香线蕉综合75 | 国产一级在线播放 | 久久综合婷婷国产二区高清 | 无限国产资源 | 开心激情综合 | 精品在线一区二区 | 一级视频在线播放 | 国产美女永久无遮挡 | 久久99精品久久久久久噜噜 | 久久久久人妻精品色欧美 | 亚洲乱码一区二区三区在线观看 | 午夜不卡在线观看 | 欧美亚洲大片 | 日本少妇在线观看 | 中文字幕在线观看精品 | 国产良妇出轨视频在线观看 | 99日韩 | 真实乱视频国产免费观看 | 国内精品视频在线播放 | 亚洲蜜桃精久久久久久久久久久久 | 国产精品毛片在线 | 中日韩午夜理伦电影免费 | 久久午夜精品人妻一区二区三区 | 欧美日韩免费在线 | 欧美熟妇精品黑人巨大一二三区 | 日本少妇裸体做爰高潮片 | 国产成人av免费看 | 日韩高清在线一区二区 | 欧美在线一二三 | 国产福利在线观看 | 色人阁av | 国产精品国产三级国产a | 最新中文字幕免费视频 | 玖玖精品在线视频 | 久久久久在线观看 | 91射| 日本中文字幕高清 | 精品国产伦一区二区三 | 果冻传媒18禁免费视频 | 欧美20p| 久操影视 | 日本午夜影视 | 欧美人与牲动xxxx | 黄页视频在线观看 | 黄色小视频大全 | 亚洲一区二区中文字幕 | 超碰女| 日韩视频在线一区 | 欧美男女动态图 | 黄色小视频免费在线观看 | 国产又黄又爽 | 伊人狠狠操 | 日韩精品第二页 | 日韩av片在线 | 热久久91 | 国产一区二区亚洲 | 爱爱视频在线播放 | 免费成人在线网站 | 亚洲com| 日本国产精品视频 | www.一区二区三区四区 | 国产成人精品一区二区三区四区 | 亚洲色图丝袜美腿 | 日本人妖网站 | 欧美日韩成人网 | 国产这里只有精品 | 久久午夜一区 |