日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

终章 | 机器学习笔试题精选

發(fā)布時(shí)間:2025/3/15 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 终章 | 机器学习笔试题精选 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
點(diǎn)擊上方“AI有道”,選擇“置頂公眾號(hào)”

關(guān)鍵時(shí)刻,第一時(shí)間送達(dá)!

讀本文大約需要 9 分鐘

機(jī)器學(xué)習(xí)是一門理論性和實(shí)戰(zhàn)性都比較強(qiáng)的技術(shù)學(xué)科。在應(yīng)聘機(jī)器學(xué)習(xí)相關(guān)工作崗位時(shí),我們常常會(huì)遇到各種各樣的機(jī)器學(xué)習(xí)問題和知識(shí)點(diǎn)。為了幫助大家對(duì)這些知識(shí)點(diǎn)進(jìn)行梳理和理解,以便能夠更好地應(yīng)對(duì)機(jī)器學(xué)習(xí)筆試包括面試。紅色石頭準(zhǔn)備在公眾號(hào)連載一些機(jī)器學(xué)習(xí)筆試題系列文章,希望能夠?qū)Υ蠹矣兴鶐椭?#xff01;

之前紅色石頭整理了一些機(jī)器學(xué)習(xí)筆試題,共發(fā)布了六篇文章,總共包含了 75 道機(jī)器學(xué)習(xí)、深度學(xué)習(xí)相關(guān)的筆試題。這里一并列出來:

機(jī)器學(xué)習(xí)筆試薈萃

【1】機(jī)器學(xué)習(xí)筆試題精選

【2】機(jī)器學(xué)習(xí)筆試題精選

【3】機(jī)器學(xué)習(xí)筆試題精選

【4】機(jī)器學(xué)習(xí)筆試題精選

【5】機(jī)器學(xué)習(xí)筆試題精選

【6】機(jī)器學(xué)習(xí)筆試題精選

接下來我們繼續(xù)來看機(jī)器學(xué)習(xí)筆試題精選(七)的內(nèi)容。

Q1. 下面哪個(gè)對(duì)應(yīng)的是正確的 KNN 決策邊界?

A. A

B. B

C. C

D. D

答案:A

解析:本題考查的是 KNN 的相關(guān)知識(shí)點(diǎn)。

KNN 分類算法是一個(gè)比較成熟也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)(Machine Learning)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中與K個(gè)實(shí)例最為相似(即特征空間中最鄰近),那么這 K 個(gè)實(shí)例中大多數(shù)屬于哪個(gè)類別,則該樣本也屬于這個(gè)類別。其中,計(jì)算樣本與其他實(shí)例的相似性一般采用距離衡量法。離得越近越相似,離得越遠(yuǎn)越不相似。因此,決策邊界可能不是線性的。

Q2.?如果一個(gè)經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型在測(cè)試集上達(dá)到 100% 的準(zhǔn)確率,這是否意味著該模型將在另外一個(gè)新的測(cè)試集上也能得到 100% 的準(zhǔn)確率呢?

A. 是的,因?yàn)檫@個(gè)模型泛化能力已經(jīng)很好了,可以應(yīng)用于任何數(shù)據(jù)

B. 不行,因?yàn)檫€有一些模型不確定的東西,例如噪聲

答案:B

解析:本題考查的是機(jī)器學(xué)習(xí)泛化能力與噪聲。

現(xiàn)實(shí)世界的數(shù)據(jù)并不總是無噪聲的,所以在這種情況下,我們不會(huì)得到 100% 的準(zhǔn)確度。

Q3. 下面是交叉驗(yàn)證的幾種方法:

1. Bootstrap

2. 留一法交叉驗(yàn)證

3. 5 折交叉驗(yàn)證

4. 重復(fù)使用兩次 5 折交叉驗(yàn)證

請(qǐng)對(duì)上面四種方法的執(zhí)行時(shí)間進(jìn)行排序,樣本數(shù)量為 1000。

A. 1 > 2 > 3 > 4

B. 2 > 3 > 4 > 1

C. 4 > 1 > 2 >3

D. 2 > 4 > 3 > 1

答案:D

解析:本題考查的是 k 折交叉驗(yàn)證和 Bootstrap 的基本概念。

Bootstrap 是統(tǒng)計(jì)學(xué)的一個(gè)工具,思想就是從已有數(shù)據(jù)集 D 中模擬出其他類似的樣本 Dt。Bootstrap 的做法是,假設(shè)有 N 筆資料,先從中選出一個(gè)樣本,再放回去,再選擇一個(gè)樣本,再放回去,共重復(fù) N 次。這樣我們就得到了一個(gè)新的 N 筆資料,這個(gè)新的 Dt 中可能包含原 D 里的重復(fù)樣本點(diǎn),也可能沒有原 D 里的某些樣本,Dt 與 D 類似但又不完全相同。值得一提的是,抽取-放回的操作不一定非要是 N,次數(shù)可以任意設(shè)定。例如原始樣本有 10000 個(gè),我們可以抽取-放回 3000 次,得到包含 3000 個(gè)樣本的 Dt 也是完全可以的。因此,使用 bootstrap 只相當(dāng)于有 1 個(gè)模型需要訓(xùn)練,所需時(shí)間最少。

留一法(Leave-One-Out)交叉驗(yàn)證每次選取 N-1 個(gè)樣本作為訓(xùn)練集,另外一個(gè)樣本作為驗(yàn)證集,重復(fù) N 次。因此,留一法相當(dāng)于有 N 個(gè)模型需要訓(xùn)練,所需的時(shí)間最長(zhǎng)。

5 折交叉驗(yàn)證把 N 個(gè)樣本分成 5 份,其中 4 份作為訓(xùn)練集,另外 1 份作為驗(yàn)證集,重復(fù) 5 次。因此,5 折交叉驗(yàn)證相當(dāng)于有 5 個(gè)模型需要訓(xùn)練。

2 次重復(fù)的 5 折交叉驗(yàn)證相當(dāng)于有 10 個(gè)模型需要訓(xùn)練。

Q4.?變量選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應(yīng)該做哪些變量選擇的考慮?(多選)?

A. 多個(gè)變量是否有相同的功能

B. 模型是否具有解釋性

C. 特征是否攜帶有效信息

D. 交叉驗(yàn)證

答案:ACD

解析:本題考查的是模型特征選擇。

如果多個(gè)變量試圖做相同的工作,那么可能存在多重共線性,影響模型性能,需要考慮。如果特征是攜帶有效信息的,總是會(huì)增加模型的有效信息。我們需要應(yīng)用交叉驗(yàn)證來檢查模型的通用性。關(guān)于模型性能,我們不需要看到模型的可解釋性。

Q6. 如果在線性回歸模型中額外增加一個(gè)變量特征之后,下列說法正確的是?

A.?R-Squared 和 Adjusted R-Squared 都會(huì)增大

B.?R-Squared 保持不變 Adjusted R-Squared 增加

C.?R-Squared 和 Adjusted R-Squared 都會(huì)減小

D.?以上說法都不對(duì)

答案:D

解析:本題考查的是線性回歸模型的評(píng)估準(zhǔn)則?R-Squared 和 Adjusted R-Squared。

線性回歸問題中,R-Squared 是用來衡量回歸方程與真實(shí)樣本輸出之間的相似程度。其表達(dá)式如下所示:

上式中,分子部分表示真實(shí)值與預(yù)測(cè)值的平方差之和,類似于均方差 MSE;分母部分表示真實(shí)值與均值的平方差之和,類似于方差 Var。根據(jù)?R-Squared 的取值,來判斷模型的好壞:如果結(jié)果是 0,說明模型擬合效果很差;如果結(jié)果是 1,說明模型無錯(cuò)誤。一般來說,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準(zhǔn),因?yàn)?#xff0c;隨著樣本數(shù)量的增加,R-Square必然增加,無法真正定量說明準(zhǔn)確程度,只能大概定量。

單獨(dú)看?R-Squared,并不能推斷出增加的特征是否有意義。通常來說,增加一個(gè)特征,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關(guān)。

如果使用校正決定系數(shù)(Adjusted R-Square):

其中,n 是樣本數(shù)量,p 是特征數(shù)量。Adjusted R-Square?抵消樣本數(shù)量對(duì) R-Square的影響,做到了真正的 0~1,越大越好。若增加的特征有效,則?Adjusted R-Square 就會(huì)增大,反之則減小。

Q7. 如下圖所示,對(duì)同一數(shù)據(jù)集進(jìn)行訓(xùn)練,得到 3 個(gè)模型。對(duì)于這 3 個(gè)模型的評(píng)估,下列說法正確的是?(多選)

A. 第一個(gè)模型的訓(xùn)練誤差最大

B. 第三個(gè)模型性能最好,因?yàn)槠溆?xùn)練誤差最小

C. 第二個(gè)模型最穩(wěn)健,其在測(cè)試集上表現(xiàn)應(yīng)該最好

D. 第三個(gè)模型過擬合

答案:ACD

解析:本題考查的是機(jī)器學(xué)習(xí)模型欠擬合、過擬合概念。

很簡(jiǎn)單,第一個(gè)模型過于簡(jiǎn)單,發(fā)生欠擬合,訓(xùn)練誤差很大,在訓(xùn)練樣本和測(cè)試樣本上表現(xiàn)都不佳。第二個(gè)模型較好,泛化能力強(qiáng),模型較為健壯,在訓(xùn)練樣本和測(cè)試樣本上表現(xiàn)都不錯(cuò)。第三個(gè)模型過于復(fù)雜,發(fā)生過擬合,訓(xùn)練樣本誤差雖然很小,但是在測(cè)試樣本集上一般表現(xiàn)很差,泛化能力很差。

模型選擇應(yīng)該避免欠擬合和過擬合,對(duì)于模型復(fù)雜的情況可以選擇使用正則化方法。

Q8. 如果使用線性回歸模型,下列說法正確的是?

A.?檢查異常值是很重要的,因?yàn)榫€性回歸對(duì)離群效應(yīng)很敏感

B.?線性回歸分析要求所有變量特征都必須具有正態(tài)分布

C.?線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性

D. 以上說法都不對(duì)

答案:A

解析:本題考查的是線性回歸的一些基本原理。

異常值是數(shù)據(jù)中的一個(gè)非常有影響的點(diǎn),它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中一直是很重要的。

了解變量特征的分布是有用的。類似于正態(tài)分布的變量特征對(duì)提升模型性能很有幫助。例如,數(shù)據(jù)預(yù)處理的時(shí)候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分布。但這也不是必須的。

當(dāng)模型包含相互關(guān)聯(lián)的多個(gè)特征時(shí),會(huì)發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該盡量減少冗余性。C 選擇絕對(duì)化了。

Q9.?建立線性模型時(shí),我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時(shí),如果發(fā)現(xiàn) 3 對(duì)變量(Var1 和 Var2、Var2 和 Var3、Var3 和 Var1)之間的相關(guān)性分別為 -0.98、0.45 和 1.23。我們能從中推斷出什么呢?(多選)

A. Var1 和 Var2 具有很高的相關(guān)性

B. Var1 和 Var2 存在多重共線性,模型可以去掉其中一個(gè)特征

C. Var3 和 Var1 相關(guān)系數(shù)為 1.23 是不可能的

答案:ABC

解析:本題考查的是相關(guān)系數(shù)的基本概念。

Var1 和 Var2 之間的相關(guān)性非常高,并且是負(fù)的,因此我們可以將其視為多重共線性的情況。此外,當(dāng)數(shù)據(jù)中存在多重線性特征時(shí),我們可以去掉一個(gè)。一般來說,如果相關(guān)大于 0.7 或小于 -0.7,那么我們認(rèn)為特征之間有很高的相關(guān)性。第三個(gè)選項(xiàng)是不言自明的,相關(guān)系數(shù)介于 [-1,1] 之間,1.23 明顯有誤。

Q10.?如果自變量 X 和因變量 Y 之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。這個(gè)說法正確嗎?

A. 正確

B. 錯(cuò)誤

答案:A

解析:本題考查的是回歸模型的選擇。

當(dāng)數(shù)據(jù)是非線性的時(shí),經(jīng)典回歸模型泛化能力不強(qiáng),而基于樹的模型通常表現(xiàn)更好。

更多原創(chuàng)內(nèi)容請(qǐng)點(diǎn)擊文末的閱讀原文查看!

參考文獻(xiàn):

https://www.analyticsvidhya.com/blog/2016/11/solution-for-skilltest-machine-learning-revealed/

推薦閱讀

【干貨】我的機(jī)器學(xué)習(xí)入門路線圖

總結(jié)

以上是生活随笔為你收集整理的终章 | 机器学习笔试题精选的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。