日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

推荐收藏 | 决策树,逻辑回归,PCA-算法面经

發(fā)布時(shí)間:2023/12/20 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐收藏 | 决策树,逻辑回归,PCA-算法面经 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


目錄

  • 決策樹(shù)

    • 簡(jiǎn)述決策樹(shù)原理?

    • 為什么要對(duì)決策樹(shù)進(jìn)行減枝?如何進(jìn)行減枝?

    • 簡(jiǎn)述決策樹(shù)的生成策略

  • PCA

    • 簡(jiǎn)述主成分分析PCA工作原理,以及PCA的優(yōu)缺點(diǎn)?

    • PCA中有第一主成分、第二主成分,它們分別是什么,又是如何確定的?

  • 邏輯回歸

    • 邏輯回歸是線性模型么,說(shuō)下原因?

    • 邏輯回歸算法為什么用的是sigmoid函數(shù)而不用階躍函數(shù)?

  • 其他

    • 分析KNN與K-means中k值如何進(jìn)行選取并解釋兩者之間的區(qū)別?

    • 對(duì)于數(shù)據(jù)異常值,我們一般如何處理?

    • 什么是特征選擇,為什么要進(jìn)行特征選擇,以及如何進(jìn)行?

決策樹(shù)

簡(jiǎn)述決策樹(shù)原理?

決策樹(shù)是一種自上而下,對(duì)樣本數(shù)據(jù)進(jìn)行樹(shù)形分類的過(guò)程,由節(jié)點(diǎn)和有向邊組成。節(jié)點(diǎn)分為內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩?#xff0c;葉節(jié)點(diǎn)表示類別。從頂部節(jié)點(diǎn)開(kāi)始,所有樣本聚在一起,經(jīng)過(guò)根節(jié)點(diǎn)的劃分,樣本被分到不同的子節(jié)點(diǎn)中,再根據(jù)子節(jié)點(diǎn)的特征進(jìn)一步劃分,直至所有樣本都被歸到某個(gè)類別。

為什么要對(duì)決策樹(shù)進(jìn)行減枝?如何進(jìn)行減枝?

Datawhale優(yōu)秀回答者:Cassiel

剪枝是決策樹(shù)解決過(guò)擬合問(wèn)題的方法。在決策樹(shù)學(xué)習(xí)過(guò)程中,為了盡可能正確分類訓(xùn)練樣本,結(jié)點(diǎn)劃分過(guò)程將不斷重復(fù),有時(shí)會(huì)造成決策樹(shù)分支過(guò)多,于是可能將訓(xùn)練樣本學(xué)得太好,以至于把訓(xùn)練集自身的一些特點(diǎn)當(dāng)作所有數(shù)據(jù)共有的一般特點(diǎn)而導(dǎo)致測(cè)試集預(yù)測(cè)效果不好,出現(xiàn)了過(guò)擬合現(xiàn)象。因此,可以通過(guò)剪枝來(lái)去掉一些分支來(lái)降低過(guò)擬合的風(fēng)險(xiǎn)。

? ? ? ?

決策樹(shù)剪枝的基本策略有“預(yù)剪枝”和“后剪枝”。預(yù)剪枝是指在決策樹(shù)生成過(guò)程中,對(duì)每個(gè)結(jié)點(diǎn)在劃分前先進(jìn)行估計(jì),若當(dāng)前結(jié)點(diǎn)的劃分不能帶來(lái)決策樹(shù)泛化性能提升,則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn);后剪枝則是先從訓(xùn)練集生成一棵完整的決策樹(shù),然后自底向上地對(duì)非葉結(jié)點(diǎn)進(jìn)行考察,若將該結(jié)點(diǎn)對(duì)應(yīng)的子樹(shù)替換為葉結(jié)點(diǎn)能帶來(lái)決策樹(shù)泛化性能提升,則將該子樹(shù)替換為葉結(jié)點(diǎn)。

預(yù)剪枝使得決策樹(shù)的很多分支都沒(méi)有"展開(kāi)”,這不僅降低了過(guò)擬合的風(fēng)險(xiǎn),還顯著減少了決策樹(shù)的訓(xùn)練時(shí)間開(kāi)銷和測(cè)試時(shí)間開(kāi)銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能、甚至可能導(dǎo)致泛化性能暫時(shí)下降?但在其基礎(chǔ)上進(jìn)行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于"貪心"本質(zhì)禁止這些分支展開(kāi),給預(yù)剪枝決策樹(shù)帶來(lái)了欠擬含的風(fēng)險(xiǎn)。

后剪枝決策樹(shù)通常比預(yù)剪枝決策樹(shù)保留了更多的分支,一般情形下后剪枝決策樹(shù)的欠擬合風(fēng)險(xiǎn)很小,泛化性能往往優(yōu)于預(yù)剪枝決策樹(shù) 。但后剪枝過(guò)程是在生成完全決策樹(shù)之后進(jìn)行的 并且要白底向上對(duì)樹(shù)中的所有非葉結(jié)點(diǎn)進(jìn)行逐 考察,因此其訓(xùn)練時(shí)間開(kāi)銷比未剪枝決策樹(shù)和預(yù)剪枝決策樹(shù)都要大得多。?

簡(jiǎn)述決策樹(shù)的生成策略?

Datawhale優(yōu)秀回答者:立言

決策樹(shù)主要有ID3、C4.5、CART,算法的適用略有不同,但它們有個(gè)總原則,即在選擇特征、向下分裂、樹(shù)生成中,它們都是為了讓信息更“純”

舉一個(gè)簡(jiǎn)單例子,通過(guò)三個(gè)特征:是否有喉結(jié)、身高、體重,判斷人群中的男女,是否有喉結(jié)把人群分為兩部分,一邊全是男性、一邊全是女性,達(dá)到理想結(jié)果,純度最高。通過(guò)身高或體重,人群會(huì)有男有女。上述三種算法,信息增益、增益率、基尼系數(shù)對(duì)“純”的不同解讀。如下詳細(xì)闡述:



綜上,ID3采用信息增益作為劃分依據(jù),會(huì)傾向于取值較多的特征,因?yàn)樾畔⒃鲆娣从车氖墙o定條件以后不確定性減少的程度,特征取值越多就意味著不確定性更高。C4.5對(duì)ID3進(jìn)行優(yōu)化,通過(guò)引入信息增益率,對(duì)特征取值較多的屬性進(jìn)行懲罰。

PCA

簡(jiǎn)述主成分分析PCA工作原理,以及PCA的優(yōu)缺點(diǎn)?

?

PCA旨在找到數(shù)據(jù)中的主成分,并利用這些主成分表征原始數(shù)據(jù),從而達(dá)到降維的目的。

工作原理可由兩個(gè)角度解釋,第一個(gè)是最大化投影方差(讓數(shù)據(jù)在主軸上投影的方差盡可能大);第二個(gè)是最小化平方誤差(樣本點(diǎn)到超平面的垂直距離足夠近)。

做法是數(shù)據(jù)中心化之后,對(duì)樣本數(shù)據(jù)協(xié)方差矩陣進(jìn)行特征分解,選取前d個(gè)最大的特征值對(duì)應(yīng)的特征向量,即可將數(shù)據(jù)從原來(lái)的p維降到d維,也可根據(jù)奇異值分解來(lái)求解主成分。?

優(yōu)點(diǎn):

1.計(jì)算簡(jiǎn)單,易于實(shí)現(xiàn)

2.各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響的因素

3.僅僅需要以方差衡量信息量,不受數(shù)據(jù)集以外的因素影響

4.降維維數(shù)木有限制,可根據(jù)需要制定

缺點(diǎn):

1.無(wú)法利用類別的先驗(yàn)信息

2.降維后,只與數(shù)據(jù)有關(guān),主成分各個(gè)維度的含義模糊,不易于解釋

3.方差小的非主成分也可能含有對(duì)樣本差異的重要信息,因降維丟棄可能對(duì)后續(xù)數(shù)據(jù)處理有影響

4.線性模型,對(duì)于復(fù)雜數(shù)據(jù)集難以處理(可用核映射方式改進(jìn))

參考鏈接:

https://www.jianshu.com/p/487818da5de3

PCA中有第一主成分、第二主成分,它們分別是什么,又是如何確定的?

Datawhale優(yōu)秀回答者:孫洪杰?

主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。主成分分析,是考察多個(gè)變量間相關(guān)性一種多元統(tǒng)計(jì)方法,研究如何通過(guò)少數(shù)幾個(gè)主成分來(lái)揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個(gè)主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān),通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。?

最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來(lái)信息,F1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個(gè)主成分。

邏輯回歸

邏輯回歸是線性模型么,說(shuō)下原因?

Datawhale優(yōu)秀回答者:夢(mèng)大大?

邏輯回歸是廣義線性模型,原因如下:?

狹義線性模型的前提是因變量誤差是正態(tài)分布,但很多情況下這并不滿足,比如對(duì)足球比分的預(yù)測(cè)顯然用泊松分布是更好的選擇。而廣義的”廣”在于引入了聯(lián)系函數(shù),于是誤差變成了只要滿足指數(shù)分布族就行了,因此適用性更強(qiáng)。?

簡(jiǎn)單來(lái)說(shuō)廣義線性模型分為兩個(gè)部分,第一個(gè)部分是描述了自變量和因變量的系統(tǒng)關(guān)系,也就是”線性”所在;第二個(gè)部分是描述了因變量的誤差,這可以建模成各種滿足指數(shù)分布族的分布。而聯(lián)系函數(shù)就是把這兩個(gè)部分連接起來(lái)的橋梁,也就是把因變量的期望表示為了自變量線性組合的函數(shù)。而像邏輯回歸這樣的簡(jiǎn)單廣義線性模型,實(shí)際是將自變量的線性組合變成了聯(lián)系函數(shù)的自然參數(shù),這類聯(lián)系函數(shù)也可以叫做正則聯(lián)系函數(shù)。?

邏輯回歸算法為什么用的是sigmoid函數(shù)而不用階躍函數(shù)?

階躍函數(shù)雖然能夠直觀刻畫分類的錯(cuò)誤率,但是由于其非凸、非光滑的特點(diǎn),使得算法很難直接對(duì)該函數(shù)進(jìn)行優(yōu)化。而sigmoid函數(shù)本身的特征(光滑無(wú)限階可導(dǎo)),以及完美的映射到概率空間,就用于邏輯回歸了。解釋上可從三個(gè)方面:- 最大熵定理- 伯努利分布假設(shè)- 貝葉斯理論 。

其他

分析KNN與K-means中k值如何進(jìn)行選取并解釋兩者之間的區(qū)別?

knn的k是指選擇與目標(biāo)最近k個(gè)數(shù)量樣本來(lái)進(jìn)行預(yù)測(cè)。可以用多次交叉檢驗(yàn)迭代對(duì)比后選擇最優(yōu)。kmeans的k是指簇中心數(shù)量,也就是聚類的數(shù)量。可以用肘部法,也是通過(guò)不同的k值,每次都計(jì)算所有樣本與距離自己最近簇中心的距離之和,最后用k值和對(duì)應(yīng)的距離畫散點(diǎn)圖,尋找一個(gè)最優(yōu)的拐點(diǎn)。手肘法是個(gè)經(jīng)驗(yàn)學(xué)習(xí),所以不夠自動(dòng)化,然后提出了Gap Statistic方法。

對(duì)于數(shù)據(jù)異常值,我們一般如何處理?

1.視為無(wú)效信息(噪聲點(diǎn)):結(jié)合異常值檢測(cè)算法,檢測(cè)出后直接丟棄;

2.視為有效信息(信號(hào)點(diǎn)):

作為缺失值,用缺失值的方式處理;

3.用平均值(中位數(shù))等統(tǒng)計(jì)特征進(jìn)行修正,結(jié)合前后觀測(cè)值;

4.不處理,直接在具有異常值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘;

什么是特征選擇,為什么要進(jìn)行特征選擇,以及如何進(jìn)行?

Datawhale優(yōu)秀回答者:Summer

特征選擇是通過(guò)選擇舊屬性的子集得到新屬性,是一種維規(guī)約方式。

Why:

應(yīng)用方面:提升準(zhǔn)確率,特征選擇能夠刪除冗余不相關(guān)的特征并降低噪聲,避免維災(zāi)難。在許多數(shù)據(jù)挖掘算法中,維度較低,效果更好;

執(zhí)行方面:維度越少,運(yùn)行效率越高,同時(shí)內(nèi)存需求越少。

How:

有三種標(biāo)準(zhǔn)的特征選擇方法

1.嵌入方法,算法本身決定使用哪些屬性和忽略哪些屬性。即特征選擇與訓(xùn)練過(guò)程融為一體,比如L1正則、決策樹(shù)等;

2.過(guò)濾方法,獨(dú)立于算法,在算法運(yùn)行前進(jìn)行特征選擇。如可以選擇屬性的集合,集合內(nèi)屬性對(duì)之間的相關(guān)度盡可能低。常用對(duì)特征重要性(方差,互信息,相關(guān)系數(shù),卡方檢驗(yàn))排序選擇;可結(jié)合別的算法(隨機(jī)森林,GBDT等)進(jìn)行特征重要性提取,過(guò)濾之后再應(yīng)用于當(dāng)前算法。

3.包裝方法,算法作為黑盒,在確定模型和評(píng)價(jià)準(zhǔn)則之后,對(duì)特征空間的不同子集做交叉驗(yàn)證,進(jìn)而搜索最佳特征子集。深度學(xué)習(xí)具有自動(dòng)化包裝學(xué)習(xí)的特性。總之,特征子集選擇是搜索所有可能的特性子集的過(guò)程,可以使用不同的搜索策略,但是搜索策略的效率要求比較高,并且應(yīng)當(dāng)找到最優(yōu)或近似最優(yōu)的特征子集。一般流程如下圖:?

總結(jié)

以上是生活随笔為你收集整理的推荐收藏 | 决策树,逻辑回归,PCA-算法面经的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲福利视频网站 | 免费瑟瑟网站 | 成人91看片 | 欧美一区二区网站 | 天堂成人av | 三级视频网站 | 亚洲五月天综合 | 青青草免费在线 | 成人国产在线观看 | 日韩美在线 | 狠狠操很很干 | 午夜免费一级片 | 日日撸夜夜操 | 日本中文字幕免费 | 欧美日韩成人免费观看 | 黄色片在线视频 | 日夜夜操 | 中国老头性行为xxxx | 男女互操在线观看 | 这里只有精品视频在线观看 | 日韩欧美99| 日本国产精品视频 | 色哟哟视频在线 | 国产精品久久久久毛片大屁完整版 | 超碰青青操| 中文字幕日本 | 国产又粗又猛又爽又黄视频 | 国产熟妇一区二区三区aⅴ网站 | 日韩一区免费观看 | 国产欧美久久一区二区三区 | 亚洲av无码乱码国产麻豆 | 18成人在线 | 91人人澡人人爽 | 青草视频在线观看免费 | 大尺度做爰啪啪床戏 | 国产精品久久久无码一区 | 淫片一级国产 | 午夜片在线观看 | 精精国产xxxx视频在线 | 欧美脚交 | 欧美日韩一二区 | 三级av在线免费观看 | 久久中文免费视频 | 香蕉久久网 | 国产精品久久久久久久久免费看 | 精品视频www| 国产精品久久久久久久av福利 | 国产伦理精品 | 久久亚洲免费 | 明里柚番号 | 99re热在线视频 | 寻找身体恐怖电影免费播放 | 日韩夜色| 中文字幕 日韩 欧美 | 中国二级毛片 | 午夜久久网 | 国产传媒第一页 | 另类中文字幕 | 日本少妇xxxx动漫 | 法国伦理少妇愉情 | 韩国一级淫片免费看 | 丁香五香天堂 | 97人人艹 | 特级特黄aaaa免费看 | 久久九九国产视频 | 亚洲天堂avav | 亚洲精品一 | 欧美精品一区二区蜜桃 | ass精品国模裸体欣赏pics | 六月久久 | 日本色图片 | 亚洲v国产v| 亚洲九色| av一二三四区| 久久精品人妻一区二区 | 午夜成人免费电影 | 欧美日韩在线中文字幕 | 爱爱免费小视频 | 激情伦成人综合小说 | 欧美日日日 | 欧美性高潮视频 | 国产精品老牛影院99av | 国产精品久久久久久三级 | 色呦呦在线看 | 新av在线 | 丰满人妻一区二区三区免费 | 99九九热| 欧美在线播放一区二区 | 免费成人深夜 | 亚洲男人天堂2020 | 亚洲成a| 日韩精品一区二区不卡 | 国产女人18毛片水真多1 | 久久成人在线观看 | 自拍偷拍激情视频 | 国内老熟妇对白xxxxhd | 黄色网入口 | 国产又粗又黄又爽的视频 | 国产成人午夜 |