日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

推荐系统笔记:决策树回归树

發(fā)布時間:2025/4/5 windows 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐系统笔记:决策树回归树 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?????????決策樹和回歸樹經(jīng)常用于數(shù)據(jù)分類。 決策樹是為那些因變量(target,label)是分類的情況而設(shè)計的,而回歸樹是為那些因變量(target,label)是數(shù)值的情況而設(shè)計的。

???????? 在討論決策樹對協(xié)同過濾的泛化之前,我們將首先討論決策樹在分類中的應(yīng)用。

1 決策樹在分類/回歸中的應(yīng)用

????????考慮我們有一個 m×n 矩陣 R 的情況。不失一般性,假設(shè)前 (n ? 1) 列是自變量(x),最后一列是因變量(y)。

???????? 為了便于討論,假設(shè)所有變量都是二進(jìn)制的。 因此,我們將討論創(chuàng)建決策樹而不是回歸樹。 稍后,我們將討論如何將這種方法推廣到其他類型的變量。

?????????決策樹是數(shù)據(jù)空間的分層劃分,使用一組分層決策,稱為自變量中的拆分標(biāo)準(zhǔn)。

????????在單變量決策樹中,一次使用單個特征來執(zhí)行拆分。例如,在特征值為 0 或 1 的二元矩陣 R 中,特征變量值為 0 的所有數(shù)據(jù)記錄將位于一個分支中,而所有數(shù)據(jù)取值為 1 的特征變量將位于另一個分支中。大多數(shù)屬于不同類的記錄將被分離出來。

????????當(dāng)決策樹中的每個節(jié)點都有兩個子節(jié)點時,生成的決策樹稱為二叉決策樹。

1.1 Gini指數(shù)?

? ? ? 衡量決策樹分裂的質(zhì)量可以通過使用分裂產(chǎn)生的子節(jié)點的加權(quán)平均基尼指數(shù)來評估。

???????? 如果 p1 ...pr 是節(jié)點 S 中屬于 r 個不同類的數(shù)據(jù)記錄的占比,則該節(jié)點的基尼指數(shù) G(S) 定義如下:

????????

? ? ? ? ——>一個節(jié)點的Gini系數(shù)

?????????基尼指數(shù)介于 0 和 1 之間,數(shù)值越小,越表明判別力越大。

? ? ? ? 比如我們有六個點

S的兩個分支節(jié)點各有多少個節(jié)點

S的Gini系數(shù)
(6,0)1-(1)**2-(0)**2=0
(4,2)1-(1/3)**2-(2/3)**2=0.44
(3,3)1-(1/2)**2-(1/2)**2=0.5

? ? ? ? 可以看出,S點越不確定屬于哪一類,Gini系數(shù)越大

????????分裂的整體基尼指數(shù)等于子節(jié)點基尼指數(shù)的加權(quán)平均值。

????????在這里,節(jié)點的權(quán)重由其中的數(shù)據(jù)點數(shù)定義。

???????? 因此,如果 S1 和 S2 是二叉決策樹中節(jié)點 S 的兩個子節(jié)點,分別有 n1 和 n2 條數(shù)據(jù)記錄,那么分裂 S ? (S1, S2) 的基尼指數(shù)可以計算如下 ????????

????????

1.2 構(gòu)造決策樹

????????Gini 指數(shù)用于選擇適當(dāng)?shù)膶傩?/span>以用于在樹的給定級別執(zhí)行拆分。

????????可以根據(jù)公式 3.2 測試每個屬性以評估其拆分的基尼指數(shù)。選擇基尼系數(shù)最小的屬性進(jìn)行拆分。

????????該方法以自上而下的方式分層執(zhí)行,直到每個節(jié)點僅包含屬于特定類別的數(shù)據(jù)記錄。或者,當(dāng)節(jié)點中的最小部分記錄屬于特定類時,也可以提前停止樹的生長。

????????這樣的節(jié)點被稱為葉節(jié)點,它被標(biāo)記為該節(jié)點中記錄的主導(dǎo)類。

? ? ? ? 當(dāng)我們需要對一個示例進(jìn)行分類時,我們就可以根據(jù)我們構(gòu)造的決策樹來為這個示例設(shè)定一條路徑。葉子的標(biāo)簽將是該實例的標(biāo)簽。????????

????????

????????圖 3.2 說明了一個基于四個二元屬性構(gòu)建的決策樹示例。樹的葉子節(jié)點在圖中用陰影表示。··????????注意,決策樹不一定使用所有屬性進(jìn)行拆分。例如,最左邊的路徑使用屬性 1 和 2,但不使用屬性 3 和 4。

????????此外,決策樹中的不同路徑可能使用不同的屬性序列。這種情況在高維數(shù)據(jù)中尤為常見

????????測試實例 A=0010 和 B=0110 到相應(yīng)葉節(jié)點的映射示例如圖 3.2 所示。由于數(shù)據(jù)分區(qū)的分層性質(zhì),這些測試實例中的每一個都被映射到唯一的葉節(jié)點。

1.3 多類別屬性 & 連續(xù)數(shù)值屬性 的決策樹?

????????該方法可以擴(kuò)展到數(shù)值自變量,只需稍作修改。

????????為了處理數(shù)值特征變量,可以將屬性值劃分為多個區(qū)間以執(zhí)行拆分,其中拆分的每個分支對應(yīng)于不同的間隔。 然后通過根據(jù)基尼指數(shù)標(biāo)準(zhǔn)選擇屬性來執(zhí)行拆分

???????? 這種方法也適用于多分類特征變量,其中分類屬性的每個值對應(yīng)于分割的一個分支。

1.4 數(shù)值因變量(target)的決策樹

????????為了處理數(shù)值因變量,拆分標(biāo)準(zhǔn)從基尼指數(shù)更改為更適合數(shù)字屬性的度量。

???????? 具體而言,使用數(shù)值因變量的方差代替基尼指數(shù) 較低的方差是更可取的,因為這意味著節(jié)點包含有區(qū)別地映射到因變量局部的訓(xùn)練實例。

???????? 葉節(jié)點中的平均值,或接一個線性回歸模型,用于對葉節(jié)點進(jìn)行預(yù)測

1.5 剪枝

????????在許多情況下,需要執(zhí)行剪枝以減少過擬合

????????在這種情況下,在樹構(gòu)建階段不使用全部,只使用部分訓(xùn)練數(shù)據(jù)。

???????? 然后,在保留的訓(xùn)練數(shù)據(jù)上測試剪枝的效果。 如果節(jié)點的移除提高了對保留數(shù)據(jù)的決策樹預(yù)測的準(zhǔn)確性,則對該節(jié)點進(jìn)行剪枝。

???????? 此外,也可以使用拆分標(biāo)準(zhǔn)的其他變體,例如錯誤率和熵。

2 將決策樹延伸到協(xié)同過濾

2.1 主要挑戰(zhàn)

????????將決策樹擴(kuò)展到協(xié)同過濾的主要挑戰(zhàn)是預(yù)測條目和觀察條目沒有以列方式作為特征和類變量清楚地分開

????????此外,評分矩陣非常稀疏,其中大部分條目都丟失了。這在樹構(gòu)建階段對訓(xùn)練數(shù)據(jù)進(jìn)行分層劃分帶來了挑戰(zhàn)。

????????此外,由于協(xié)同過濾中的因變量和自變量(項目)沒有明確劃分,決策樹應(yīng)該預(yù)測什么項目?

2.2 解決“應(yīng)該預(yù)測什么”

????????通過構(gòu)建單獨的決策樹來預(yù)測每個項目的評分。

???????? 考慮具有 m 個用戶和 n 個項目的 m × n 評級矩陣 R。 需要通過將每個屬性視為因變量,其余屬性視為自變量來構(gòu)建單獨的決策樹。

????????因此,構(gòu)建的決策樹的數(shù)量等于屬性/item的數(shù)量n。?

? ? ? ? 但在這種考慮下,缺少自變量的問題更難解決。

???????? 考慮將特定項目(例如特定電影)用作拆分屬性的情況。 所有評分小于閾值的用戶都被分配到樹的一個分支,而評分大于閾值的用戶被分配到另一個分支。

???????? 由于評分矩陣是稀疏的,因此大多數(shù)用戶不會為此項目指定評分。

????????這些用戶應(yīng)該分配到哪個分支? 從邏輯和直觀上看,應(yīng)將此類用戶分配給兩個分支。

????????然而,在這種情況下,決策樹不再是嚴(yán)格劃分。 根據(jù)這種方法,測試實例將映射到?jīng)Q策樹中的多個路徑,并需要將來自各個路徑的可能相互沖突的預(yù)測組合成單個預(yù)測

2.3 使用降維的思路

????????第二種(也是更合理的)方法是使用推薦系統(tǒng)筆記: 基于鄰居的協(xié)同過濾問題 中的降維中討論的降維方法創(chuàng)建數(shù)據(jù)的低維表示。

????????考慮需要預(yù)測第 j 個項目的評分的場景。一開始,m × (n ? 1) 維的 評分矩陣,不包括第j 列,被轉(zhuǎn)換成一個低維的m × d 表示,其中d遠(yuǎn)小于n ? 1,低秩矩陣所有元素都有數(shù)值。

? ? ? ? 然后,我們就可以將問題視為標(biāo)準(zhǔn)分類或回歸問題,此簡化表示用于構(gòu)建第 j 個項目的決策樹。

????????通過將 j 的值從 1 更改為 n 來重復(fù)此方法,以構(gòu)建總共 n 個決策樹。因此,第 j 個決策樹僅用于預(yù)測第 j 個項目的評分。?

????????值得注意的是,這種將降維與分類模型相結(jié)合的更廣泛方法不僅限于決策樹。 將此方法與幾乎任何分類模型結(jié)合使用相對容易。 ? ? ? ??

????????參考資料?Sci-Hub | Recommender Systems | 10.1007/978-3-319-29659-3

總結(jié)

以上是生活随笔為你收集整理的推荐系统笔记:决策树回归树的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。