日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分

發(fā)布時間:2025/4/14 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
《BI那點兒事》Microsoft 聚類分析算法——三國人物身份劃分 原文:《BI那點兒事》Microsoft 聚類分析算法——三國人物身份劃分

什么是聚類分析??

聚類分析屬于探索性的數(shù)據(jù)分析方法。通常,我們利用聚類分析將看似無序的對象進行分組、歸類,以達到更好地理解研究對象的目的。聚類結(jié)果要求組內(nèi)對象相似性較高,組間對象相似性較低。在三國數(shù)據(jù)分析中,很多問題可以借助聚類分析來解決,比如三國人物身份劃分。
聚類分析的基本過程是怎樣的??

  • 選擇聚類變量

在分析三國人物身份的時候,我們會根據(jù)一定的假設(shè),盡可能選取對角色身份有影響的變量,這些變量一般包含與身份密切相關(guān)的統(tǒng)率、武力、智力、政治、魅力、特技、槍兵、戟兵、弩兵、騎兵、兵器、水軍等。但是,聚類分析過程對用于聚類的變量還有一定的要求:
這些變量在不同研究對象上的值具有明顯差異;
這些變量之間不能存在高度相關(guān)。
因為,首先,用于聚類的變量數(shù)目不是越多越好,沒有明顯差異的變量對聚類沒有起到實質(zhì)意義,而且可能使結(jié)果產(chǎn)生偏差;其次,高度相關(guān)的變量相當(dāng)于給這些變量進行了加權(quán),等于放大了某方面因素對用戶分類的作用。
識別合適的聚類變量的方法:
對變量做聚類分析,從聚得的各類中挑選出一個有代表性的變量;
做主成份分析或因子分析,產(chǎn)生新的變量作為聚類變量。

  • 聚類分析

相對于聚類前的準(zhǔn)備工作,真正的執(zhí)行過程顯得異常簡單。數(shù)據(jù)準(zhǔn)備好后,丟到分析軟件(通常是分析服務(wù))里面跑一下,結(jié)果就出來了。
這里面遇到的一個問題是,把人物分成多少類合適?通常,可以結(jié)合幾個標(biāo)準(zhǔn)綜合判斷:
1. 看拐點
2. 憑經(jīng)驗或人物特性判斷
3. 在邏輯上能夠清楚地解釋

  • 找出各類用戶的重要特征

確定一種分類方案之后,接下來,我們需要返回觀察各類別三國人物在各個變量上的表現(xiàn)。根據(jù)差異檢驗的結(jié)果,我們以顏色區(qū)分出不同類用戶在這項指標(biāo)上的水平高低。

  • 聚類解釋&命名

在理解和解釋用戶分類時,最好可以結(jié)合更多的數(shù)據(jù),例如,三國志12數(shù)據(jù)等……最后,選取每一類別最明顯的幾個特征為其命名,就大功告成啦!

下面我們進入主題,同樣我們繼續(xù)利用上次的解決方案,依次步驟如下:





在挖掘模型中,主要是列出所建立的挖掘模型,也可以新增挖掘模型,并調(diào)整變量,變量使用情況包含Ignore(忽略)、Input(輸入變量)、Predict(預(yù)測變量、輸入變量)以及PredictOnly(預(yù)測變量),如圖所示:


而在挖掘模型上點擊鼠標(biāo)右鍵,選擇“設(shè)置算法參數(shù)”針對方法論的參數(shù)設(shè)置加以編輯,其中包含:
CLUSTER_COUNT:指定算法所要建立的聚類的近似數(shù)目。如果無法從數(shù)據(jù)中建立聚類的近似數(shù)目,算法便會盡可能建立聚類。若將CLUSTER_COUNT設(shè)置為0,則算法便會使用啟發(fā)式?jīng)Q定所應(yīng)建立的聚類數(shù)目,默認值為10。
CLUSTER_SEED:指定在模型建立的初始階段,用于隨機產(chǎn)生聚類的種子數(shù)。
CLUSTERING_METHOD:算法使用的聚類方法可以是可擴展的EM(1)、不可擴充的EM(2)、可擴充的K-means(3)或不可擴充的K-means(4)。
MAXIMUM_INPUT_ATTRIBUTE:指定在調(diào)用功能選項之前,算法可以處理輸入屬性的最大數(shù)目。將此值設(shè)置為0,會指定沒有屬性最大數(shù)目的限制。
MAXIMUM_STATES:指定算法所支持屬性狀態(tài)的最大數(shù)目。如果屬性擁有的狀態(tài)數(shù)目大于狀態(tài)的最大數(shù)目,算法會使用屬性最常用的狀態(tài)并將其他的狀態(tài)視為遺漏。
MINIMUM_SUPPORT:此參數(shù)指定每個聚類中的最小案例數(shù)目。
MODELLING_CARDINALITY:此參數(shù)指定聚類處理期間建構(gòu)的范例模型數(shù)目。
SAMPLE_SIZE:指定如果CLUSTERING_METHOD參數(shù)設(shè)置為可擴充的聚類方法時,算法使用在每個行程上的案例數(shù)目。將SAMPLE_SIZE設(shè)置為0會導(dǎo)致整個數(shù)據(jù)集在單一進程中聚類,如此可能會造成內(nèi)存和效率的問題。
STOPPING_TOLERANCE:指定用來決定何時到達聚合以及算法完成建立模型的值。當(dāng)聚類概率的整體變更小于SHOPPING_TOLERANCE除以模型大小的比率時,就到達聚合。

挖掘模型查看器則是呈現(xiàn)此聚類分析結(jié)果,其中聚類圖表則是表現(xiàn)各類關(guān)聯(lián)性的強弱,對于數(shù)據(jù)的分布進一步加以了解。而在每一聚類結(jié)點上,點擊右鍵,再出現(xiàn)的菜單上選擇“鉆取”,則可以瀏覽屬于這一類的樣本數(shù)據(jù)特征。

從“分類剖面圖”了解因變量與自變量間的關(guān)聯(lián)性強弱程度,如圖


“分類特性”主要是呈現(xiàn)每一類的特性,見圖


在“分類對比”上,主要就是呈現(xiàn)出兩類間特性的比較,如圖


參考文獻:
Microsoft 聚類分析算法
http://msdn.microsoft.com/zh-cn/library/ms174879.aspx

posted on 2014-12-02 09:21 NET未來之路 閱讀(...) 評論(...) 編輯 收藏

轉(zhuǎn)載于:https://www.cnblogs.com/lonelyxmas/p/4136622.html

總結(jié)

以上是生活随笔為你收集整理的《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。