日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习与统计学的本质差异

發(fā)布時(shí)間:2025/5/22 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习与统计学的本质差异 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

爭論

與流行的看法相反,機(jī)器學(xué)習(xí)實(shí)際上已經(jīng)存在了幾十年。由于其龐大的計(jì)算要求和當(dāng)時(shí)存在的計(jì)算能力的限制,最初被避開了。然而,由于信息爆炸引起的數(shù)據(jù)占優(yōu)勢,機(jī)器學(xué)習(xí)近年來出現(xiàn)了崛起。

那么,如果機(jī)器學(xué)習(xí)和統(tǒng)計(jì)是彼此的同義詞,為什么我們沒有看到每所大學(xué)的每個(gè)統(tǒng)計(jì)部門都關(guān)閉或轉(zhuǎn)變?yōu)?#34;機(jī)器學(xué)習(xí)"部門?因?yàn)樗麄儾灰粯?#xff01;

我經(jīng)常聽到關(guān)于這個(gè)主題的幾個(gè)含糊的陳述,最常見的是這些話:

"機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)之間的主要區(qū)別在于它們的目的。機(jī)器學(xué)習(xí)模型旨在使最準(zhǔn)確的預(yù)測成為可能。統(tǒng)計(jì)模型被設(shè)計(jì)用于推斷變量之間的關(guān)系。"

雖然這在技術(shù)上是正確的,但它沒有給出特別明確或令人滿意的答案。機(jī)器學(xué)習(xí)和統(tǒng)計(jì)之間的主要區(qū)別確實(shí)是它們的目的。然而,說機(jī)器學(xué)習(xí)是關(guān)于準(zhǔn)確的預(yù)測,而統(tǒng)計(jì)模型設(shè)計(jì)用于推理幾乎是無意義的陳述,除非你精通這些概念。

首先,我們必須了解統(tǒng)計(jì)數(shù)據(jù)和統(tǒng)計(jì)模型是不一樣的。統(tǒng)計(jì)學(xué)是數(shù)據(jù)的數(shù)學(xué)研究。除非您有數(shù)據(jù),否則無法進(jìn)行統(tǒng)計(jì)。統(tǒng)計(jì)模型是數(shù)據(jù)的模型,用于推斷數(shù)據(jù)中的關(guān)系或創(chuàng)建能夠預(yù)測未來值的模型。通常,這兩者是相輔相成的。

因此,實(shí)際上我們需要討論兩件事:首先,統(tǒng)計(jì)數(shù)據(jù)與機(jī)器學(xué)習(xí)有何不同,其次,統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)有何不同。

為了使其更加明確,有許多統(tǒng)計(jì)模型可以進(jìn)行預(yù)測,但預(yù)測準(zhǔn)確性并不是它們的優(yōu)勢。

同樣,機(jī)器學(xué)習(xí)模型提供了不同程度的可解釋性,從高度可解釋的到不可穿透的黑箱,但它們通常犧牲了對預(yù)測能力的可解釋性。

從高層來看,這是一個(gè)很好的答案。對大多數(shù)人來說足夠好。但是,有些情況下,這種解釋使我們對機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模之間的差異產(chǎn)生了誤解。讓我們看一下線性回歸的例子。

統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí) - 線性回歸實(shí)例

在我看來,統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)中使用的方法的相似性使人們認(rèn)為它們是同一個(gè)東西。這是可以理解的,但根本不是這樣。

最明顯的例子是線性回歸的情況,這可能是造成這種誤解的主要原因。線性回歸是一種統(tǒng)計(jì)方法,我們可以訓(xùn)練線性回歸量并獲得與統(tǒng)計(jì)回歸模型相同的結(jié)果,旨在最小化數(shù)據(jù)點(diǎn)之間的平方誤差。

我們看到,在一個(gè)案例中,我們做了一個(gè)名為"訓(xùn)練"模型的事情,其中涉及使用我們數(shù)據(jù)的一個(gè)子集,我們不知道模型將如何執(zhí)行,直到我們"測試"此數(shù)據(jù)不存在的其他數(shù)據(jù)在訓(xùn)練期間,稱為測試集。在這種情況下,機(jī)器學(xué)習(xí)的目的是在測試集上獲得最佳性能。

對于統(tǒng)計(jì)模型,我們發(fā)現(xiàn)一條線可以最小化所有數(shù)據(jù)的均方誤差,假設(shè)數(shù)據(jù)是一個(gè)線性回歸量,加上一些隨機(jī)噪聲,本質(zhì)上通常是高斯噪聲。無需訓(xùn)練,也無需測試。

對于許多情況,特別是在研究中(例如下面的傳感器示例),我們模型的要點(diǎn)是表征數(shù)據(jù)與結(jié)果變量之間的關(guān)系,而不是對未來數(shù)據(jù)進(jìn)行預(yù)測。我們將此過程稱為統(tǒng)計(jì)推斷,而不是預(yù)測。但是,我們?nèi)匀豢梢允褂么四P瓦M(jìn)行預(yù)測,這可能是您的主要目的,但評估模型的方式不涉及測試集,而是涉及評估模型參數(shù)的重要性和穩(wěn)健性。

機(jī)器學(xué)習(xí)的目的是獲得可以進(jìn)行可重復(fù)預(yù)測的模型。我們通常不關(guān)心模型是否可解釋,盡管我個(gè)人建議始終進(jìn)行測試以確保模型預(yù)測確實(shí)有意義。然而,統(tǒng)計(jì)建模更多的是發(fā)現(xiàn)變量之間的關(guān)系和這些關(guān)系的重要性,盡管也適合預(yù)測。

為了給出這兩個(gè)程序之間差異的具體例子,我將舉一個(gè)個(gè)人的例子。白天,我是一名環(huán)境科學(xué)家,主要研究傳感器數(shù)據(jù)。如果我試圖證明傳感器能夠響應(yīng)某種刺激(例如氣體濃度),那么我將使用統(tǒng)計(jì)模型來確定信號響應(yīng)是否具有統(tǒng)計(jì)顯著性。我會嘗試?yán)斫膺@種關(guān)系并測試其可重復(fù)性,以便我能夠準(zhǔn)確地表征傳感器響應(yīng)并根據(jù)這些數(shù)據(jù)做出推斷。我可能測試的一些事情是響應(yīng)是否實(shí)際上是線性的,響應(yīng)是否可以歸因于氣體濃度而不是傳感器中的隨機(jī)噪聲等。

相比之下,我還可以獲得20個(gè)不同傳感器的陣列,我可以用它來嘗試預(yù)測我新近表征的傳感器的響應(yīng)。一個(gè)預(yù)測傳感器結(jié)果的20個(gè)不同變量的模型顯然都是關(guān)于預(yù)測的,我不認(rèn)為它是特別可解釋的。由于化學(xué)動(dòng)力學(xué)和物理變量與氣體濃度之間的關(guān)系引起的非線性,這個(gè)模型可能會像神經(jīng)網(wǎng)絡(luò)一樣更深?yuàn)W。我希望這個(gè)模型有意義,但只要我能做出準(zhǔn)確的預(yù)測,我就會非常高興。

如果我試圖證明我的數(shù)據(jù)變量之間的關(guān)系達(dá)到一定程度的統(tǒng)計(jì)意義,以便我可以在科學(xué)論文中發(fā)表它,我會使用統(tǒng)計(jì)模型而不是機(jī)器學(xué)習(xí)。這是因?yàn)槲腋P(guān)心變量之間的關(guān)系,而不是做出預(yù)測。做出預(yù)測可能仍然很重要,但是大多數(shù)機(jī)器學(xué)習(xí)算法缺乏可解釋性使得難以證明數(shù)據(jù)內(nèi)的關(guān)系。

應(yīng)該清楚的是,這兩種方法的目標(biāo)不同,盡管使用類似的方法實(shí)現(xiàn)目標(biāo)。機(jī)器學(xué)習(xí)算法的評估使用測試集來驗(yàn)證其準(zhǔn)確性。然而,對于統(tǒng)計(jì)模型,可以使用置信區(qū)間,顯著性檢驗(yàn)和其他檢驗(yàn)對回歸參數(shù)進(jìn)行分析,以評估模型的合法性。由于這些方法產(chǎn)生相同的結(jié)果,因此很容易理解為什么人們可能認(rèn)為它們是相同的。

統(tǒng)計(jì)與機(jī)器學(xué)習(xí) - 線性回歸舉例

我認(rèn)為這種誤解很好地包含在比較統(tǒng)計(jì)數(shù)據(jù)和機(jī)器學(xué)習(xí)這個(gè)表面上非常詼諧的10年挑戰(zhàn)中。

然而,僅基于它們都利用相同的基本概率概念這一事實(shí)來混淆這兩個(gè)術(shù)語是不合理的。例如,如果我們根據(jù)這個(gè)事實(shí)做出機(jī)器學(xué)習(xí)只是美化統(tǒng)計(jì)的陳述,我們也可以做出以下陳述。

物理學(xué)只是美化數(shù)學(xué)。動(dòng)物學(xué)只是美化郵票收藏。建筑只是美化沙城堡建筑。這些陳述(尤其是最后一個(gè)陳述)非?;闹?#xff0c;所有這些陳述都基于這種混淆基于類似想法的術(shù)語的想法。

在我們繼續(xù)討論之前,我將很快清除另外兩個(gè)與機(jī)器學(xué)習(xí)和統(tǒng)計(jì)相關(guān)的常見誤解。這些是AI與機(jī)器學(xué)習(xí)不同,數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)不同。這些是相當(dāng)無爭議的問題所以它會很快。

數(shù)據(jù)科學(xué)本質(zhì)上是應(yīng)用于數(shù)據(jù)的計(jì)算和統(tǒng)計(jì)方法,這些方法可以是小型或大型數(shù)據(jù)集。這還可以包括探索性數(shù)據(jù)分析,其中數(shù)據(jù)被檢查和可視化,以幫助科學(xué)家更好地理解數(shù)據(jù)并從中做出推論。數(shù)據(jù)科學(xué)還包括數(shù)據(jù)爭用和預(yù)處理等內(nèi)容,因此涉及某種程度的計(jì)算機(jī)科學(xué),因?yàn)樗婕熬幋a,在數(shù)據(jù)庫,Web服務(wù)器等之間建立連接和管道。

您不一定需要使用計(jì)算機(jī)來進(jìn)行統(tǒng)計(jì),但如果沒有計(jì)算機(jī),您就無法真正進(jìn)行數(shù)據(jù)科學(xué)。你可以再次看到雖然數(shù)據(jù)科學(xué)使用統(tǒng)計(jì)數(shù)據(jù),但它們顯然不一樣。

同樣,機(jī)器學(xué)習(xí)與人工智能不同。事實(shí)上,機(jī)器學(xué)習(xí)是AI的一個(gè)子集。這是非常明顯的,因?yàn)槲覀冋诮淌?#xff08;"訓(xùn)練")一臺機(jī)器,根據(jù)以前的數(shù)據(jù)對某些類型的數(shù)據(jù)做出可推廣的推斷。

機(jī)器學(xué)習(xí)基于統(tǒng)計(jì)學(xué)

在我們討論統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的不同之前,讓我們首先討論相似之處。

機(jī)器學(xué)習(xí)建立在統(tǒng)計(jì)框架之上。這應(yīng)該是顯而易見的,因?yàn)闄C(jī)器學(xué)習(xí)涉及數(shù)據(jù),并且必須使用統(tǒng)計(jì)框架來描述數(shù)據(jù)。然而,統(tǒng)計(jì)力學(xué)也擴(kuò)展到大量粒子的熱力學(xué),也建立在統(tǒng)計(jì)框架之上。壓力的概念實(shí)際上是一個(gè)統(tǒng)計(jì)量,溫度也是一個(gè)統(tǒng)計(jì)量。盡管你覺得這聽起來很荒謬可笑,但事實(shí)上確實(shí)如此。這就是為什么你無法描述分子的溫度或壓力,這是荒謬的。溫度是分子碰撞產(chǎn)生的平均能量的表現(xiàn)。對于足夠大量的分子,我們可以描述像房子或戶外的溫度。

你會承認(rèn)熱力學(xué)和統(tǒng)計(jì)學(xué)是一樣的嗎?不,熱力學(xué)使用統(tǒng)計(jì)數(shù)據(jù)來幫助我們以運(yùn)輸現(xiàn)象的形式理解工作和熱量的相互作用。

實(shí)際上,熱力學(xué)是建立在除了統(tǒng)計(jì)之外的更多項(xiàng)目之上的。同樣,機(jī)器學(xué)習(xí)也利用了大量其他數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域,例如:

來自數(shù)學(xué)和統(tǒng)計(jì)學(xué)等領(lǐng)域的ML理論 ML算法來自優(yōu)化,矩陣代數(shù),微積分等領(lǐng)域 來自計(jì)算機(jī)科學(xué)與工程概念的ML實(shí)現(xiàn)(例如內(nèi)核技巧,特征散列)當(dāng)一個(gè)人開始使用Python進(jìn)行編碼并剔除sklearn庫并開始使用這些算法時(shí),很多這些概念都被抽象出來,因此很難看出這些差異。在這種情況下,這種抽象導(dǎo)致了對機(jī)器學(xué)習(xí)實(shí)際涉及的一種無知形式。

統(tǒng)計(jì)學(xué)習(xí)理論 - 機(jī)器學(xué)習(xí)的統(tǒng)計(jì)基礎(chǔ)

統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)之間的主要區(qū)別在于統(tǒng)計(jì)學(xué)僅基于概率空間??梢詮募险撝型茖?dǎo)出整個(gè)統(tǒng)計(jì)數(shù)據(jù),它討論了我們?nèi)绾螌?shù)字組合成類別,稱為集合,然后對此集合強(qiáng)加一個(gè)度量,以確保所有這些的總和值為1,我們稱之為概率空間。

除了這些集合和度量的概念之外,統(tǒng)計(jì)數(shù)據(jù)不對宇宙做任何其他假設(shè)。這就是為什么當(dāng)我們用非常嚴(yán)格的數(shù)學(xué)術(shù)語指定概率空間時(shí),我們指定了3個(gè)東西。

概率空間,我們這樣表示,(Ω,F,P)由三部分組成:

1. Ω,這是一組所有可能的結(jié)果的。

2. F,其中每個(gè)事件是含有零個(gè)或多個(gè)的一組。

3. 為事件分配,P ; 也就是說,從事件到概率的函數(shù)。

機(jī)器學(xué)習(xí)基于統(tǒng)計(jì)學(xué)習(xí)理論,它仍然基于概率空間的這種公理概念。該理論是在20世紀(jì)60年代發(fā)展起來的,并擴(kuò)展到傳統(tǒng)統(tǒng)計(jì)學(xué)。

有幾種類型的機(jī)器學(xué)習(xí),因此我只關(guān)注這里的監(jiān)督學(xué)習(xí),因?yàn)樗亲钊菀捉忉尩摹?/p>

監(jiān)督學(xué)習(xí)的統(tǒng)計(jì)學(xué)習(xí)理論告訴我們,我們有一組數(shù)據(jù),我們將其表示為S = {(x,y)}。這基本上說我們是一個(gè)n個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,每個(gè)數(shù)據(jù)點(diǎn)由我們稱之為功能的其他一些值描述,這些值由x提供,并且這些特征由某個(gè)函數(shù)映射以給出值y。

它說我們知道我們有這些數(shù)據(jù),我們的目標(biāo)是找到將x值映射到y(tǒng)值的函數(shù)。我們將可以描述此映射的所有可能函數(shù)的集合稱為假設(shè)空間。

要找到這個(gè)函數(shù),我們必須給算法一些"學(xué)習(xí)"什么是解決問題的最佳方法。這是由稱為損失函數(shù)的東西提供的。因此,對于我們所擁有的每個(gè)假設(shè),我們需要通過查看其對所有數(shù)據(jù)的預(yù)期風(fēng)險(xiǎn)值來評估該函數(shù)的執(zhí)行情況。

預(yù)期風(fēng)險(xiǎn)基本上是損失函數(shù)乘以數(shù)據(jù)概率分布的總和。如果我們知道映射的聯(lián)合概率分布,就很容易找到最佳函數(shù)。然而,這通常是未知的,因此我們最好的選擇是猜測最佳函數(shù),然后憑經(jīng)驗(yàn)確定損失函數(shù)是否更好。我們稱之為經(jīng)驗(yàn)風(fēng)險(xiǎn)。

然后,我們可以比較不同的函數(shù),并尋找給出最小預(yù)期風(fēng)險(xiǎn)的假設(shè),即假設(shè)給出數(shù)據(jù)上所有假設(shè)的最小值(稱為下限)。

然而,該算法具有作弊的傾向,以便通過過擬合數(shù)據(jù)來最小化其損失函數(shù)。這就是為什么在學(xué)習(xí)基于訓(xùn)練集數(shù)據(jù)的函數(shù)之后,該函數(shù)要在測試數(shù)據(jù)集上驗(yàn)證。

我們剛剛定義的機(jī)器學(xué)習(xí)的本質(zhì)引入了過擬合的問題,并且證明了在執(zhí)行機(jī)器學(xué)習(xí)時(shí)需要訓(xùn)練和測試集。這不是統(tǒng)計(jì)學(xué)的固有特征,因?yàn)槲覀儾⒉皇窃噲D最小化我們的經(jīng)驗(yàn)風(fēng)險(xiǎn)。

例子

以線性回歸的簡單情況為例。在傳統(tǒng)意義上,我們嘗試最小化某些數(shù)據(jù)之間的錯(cuò)誤,以便找到可用于描述數(shù)據(jù)的函數(shù)。在這種情況下,我們通常使用均方誤差。我們將它調(diào)整為正負(fù)誤差不會相互抵消。然后我們可以以封閉形式的方式求解回歸系數(shù)。

恰好如此,如果我們將損失函數(shù)作為均方誤差并執(zhí)行統(tǒng)計(jì)學(xué)習(xí)理論所支持的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,我們最終得到與傳統(tǒng)線性回歸分析相同的結(jié)果。

這只是因?yàn)檫@兩種情況是等價(jià)的,就像在同一數(shù)據(jù)上執(zhí)行最大似然性也會給你相同的結(jié)果一樣。最大似然性有一種不同的方式來實(shí)現(xiàn)同一目標(biāo),但沒有人會爭論并說最大似然與線性回歸相同。最簡單的情況顯然無助于區(qū)分這些方法。

這里要做的另一個(gè)重點(diǎn)是,在傳統(tǒng)的統(tǒng)計(jì)方法中,沒有訓(xùn)練集和測試集的概念,但我們確實(shí)使用度量來幫助我們檢查模型的執(zhí)行方式。因此評估程序不同,但兩種方法都能夠給我們統(tǒng)計(jì)上穩(wěn)健的結(jié)果。

另一點(diǎn)是,傳統(tǒng)的統(tǒng)計(jì)方法為我們提供了最優(yōu)解,因?yàn)榻鉀Q方案具有封閉形式。它沒有測試任何其他假設(shè)并收斂到解決方案。然而,機(jī)器學(xué)習(xí)方法嘗試了一堆不同的模型并收斂到最終假設(shè),這與回歸算法的結(jié)果一致。

如果我們使用了不同的損失函數(shù),結(jié)果可能就不會收斂。例如,如果我們使用鉸鏈損耗(使用標(biāo)準(zhǔn)梯度下降不可微分,那么將需要其他技術(shù),如梯度下降),那么結(jié)果將不相同。

可以通過考慮模型的偏差來進(jìn)行最終比較??梢砸髾C(jī)器學(xué)習(xí)算法測試線性模型,以及多項(xiàng)式模型,指數(shù)模型等,以查看這些假設(shè)是否更適合我們的先驗(yàn)損失函數(shù)。這類似于增加相關(guān)的假設(shè)空間。在傳統(tǒng)的統(tǒng)計(jì)意義上,我們選擇一個(gè)模型并可以評估其準(zhǔn)確性,但不能自動(dòng)選擇100個(gè)不同模型中的最佳模型。顯然,模型中總有一些偏差源于最初的算法選擇。這是必要的,因?yàn)檎业綄?shù)據(jù)集最佳的任意函數(shù)是NP難問題。

哪個(gè)更好?

這實(shí)際上是一個(gè)愚蠢的問題。在統(tǒng)計(jì)與機(jī)器學(xué)習(xí)方面,沒有統(tǒng)計(jì)學(xué)就不會存在機(jī)器學(xué)習(xí),但機(jī)器學(xué)習(xí)在現(xiàn)代時(shí)代非常有用,因?yàn)樽孕畔⒈ㄒ詠砣祟惪梢垣@得大量數(shù)據(jù)。

比較機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型有點(diǎn)困難。您使用哪種方法在很大程度上取決于您的目的。如果您只是想創(chuàng)建一種能夠高精度地預(yù)測住房價(jià)格的算法,或者使用數(shù)據(jù)來確定某人是否可能感染某些類型的疾病,那么機(jī)器學(xué)習(xí)可能是更好的方法。如果您試圖證明變量之間的關(guān)系或從數(shù)據(jù)推斷,統(tǒng)計(jì)模型可能是更好的方法。

如果你沒有強(qiáng)大的統(tǒng)計(jì)學(xué)背景,你仍然可以學(xué)習(xí)機(jī)器學(xué)習(xí)并利用它,機(jī)器學(xué)習(xí)庫提供的抽象使得它們非常容易被用作非專家,但你仍然需要一些理解基本的統(tǒng)計(jì)思想,以防止模型過擬合和給出似是而非的推論。

總結(jié)

以上是生活随笔為你收集整理的机器学习与统计学的本质差异的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。