當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习练习题

發(fā)布時(shí)間：2023/12/20 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习练习题小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)考試練習(xí)題

單項(xiàng)選擇題
多項(xiàng)選擇題
判斷題
填空題
簡答題

單項(xiàng)選擇題

1.在NumPy中創(chuàng)建一個(gè)元素均為0的數(shù)組可以使用（）函數(shù)。 [A]
A.zeros( ) B.arange( ) C.linspace( ) D.logspace( )
2.通常（）誤差作為泛化誤差的近似。 [A]
A.測試 B.訓(xùn)練 C.經(jīng)驗(yàn) D.以上都可以
3.梯度為（）的點(diǎn)，就是損失函數(shù)的最小值點(diǎn)，一般認(rèn)為此時(shí)模型達(dá)到了收斂。 [B]
A.-1 B.0 C.1 D.無窮大
4.創(chuàng)建一個(gè)3*3的數(shù)組，下列代碼中錯(cuò)誤的是（）。 [C]
A.np.arange(0,9).reshape(3,3) B.np.eye(3) C.np.random.random([3,3,3]) D.np.mat(“1,2,3;4,5,6;7,8,9”)
5.關(guān)于數(shù)據(jù)集的標(biāo)準(zhǔn)化，正確的描述是：（）。 [A]
A.標(biāo)準(zhǔn)化有助于加快模型的收斂速度 B.標(biāo)準(zhǔn)化一定是歸一化，即數(shù)據(jù)集的取值分布在[0,1]區(qū)間上 C.數(shù)據(jù)集的標(biāo)準(zhǔn)化一定是讓標(biāo)準(zhǔn)差變?yōu)? D.所有的模型建模之前，必須進(jìn)行數(shù)據(jù)集標(biāo)準(zhǔn)化
6.Python安裝第三方庫的命令是（）。 [C]
A.pip –h B.pyinstaller <擬安裝庫名> C.pip install <擬安裝庫名> D.pip download <擬安裝庫名>
7.如果發(fā)現(xiàn)模型在驗(yàn)證集上的準(zhǔn)確性整體高于訓(xùn)練集，在驗(yàn)證集上的損失整體低于訓(xùn)練集，則最可能的情況是：（）。 [B]
A.驗(yàn)證集的數(shù)據(jù)樣本與訓(xùn)練集相比，數(shù)量過少和過于簡單 B.模型沒有采用正則化方法 C.以上都對
8.DL是下面哪個(gè)術(shù)語的簡稱（）。 [D]
A.人工智能 B.機(jī)器學(xué)習(xí) C.神經(jīng)網(wǎng)絡(luò) D.深度學(xué)習(xí)
9.驗(yàn)證集和測試集，應(yīng)該：（）。 [A]
A.樣本來自同一分布 B.樣本來自不同分布 C.樣本之間有一一對應(yīng)關(guān)系 D.擁有相同數(shù)量的樣本
10.一般使用以下哪種方法求解線性回歸問題：（）。 [A]
A.最小二乘法 B.最大似然估計(jì) C.對數(shù)變換 D.A和B
11.以下哪個(gè)函數(shù)可以實(shí)現(xiàn)畫布的創(chuàng)建？（）。 [C]
A.subplots( ) B.add_subplot( ) C.figure( ) D.subplot2grid( )
12.Numpy中統(tǒng)計(jì)數(shù)組元素個(gè)數(shù)的方法是（）。 [C]
A.ndim B.shape C.size D.itemsize
13.決策樹中的分類結(jié)果是最末端的節(jié)點(diǎn)，這些節(jié)點(diǎn)稱為（）。 [D]
A.根節(jié)點(diǎn) B.父節(jié)點(diǎn) C.子節(jié)點(diǎn) D.葉節(jié)點(diǎn)
14.以下哪種不是Python第三方庫的安裝方法（）。 [C]
A.pip工具安裝 B.自定義安裝 C.網(wǎng)頁安裝 D.文件安裝
15.關(guān)于學(xué)習(xí)率，以下描述錯(cuò)誤的是：（）。 [B]
A.如果學(xué)習(xí)率足夠小，隨機(jī)梯度下降算法將更容易獲得全局最優(yōu)解。 B.降低學(xué)習(xí)率有可能導(dǎo)致模型訓(xùn)練時(shí)間增加。 C.以上都不對。
16.將數(shù)據(jù)集劃分成訓(xùn)練集S和測試集T的常見方法有（）。 [D]
A.留出法 B.交叉驗(yàn)證法 C.自助法 D.以上均正確
17.ML是下面哪個(gè)術(shù)語的簡稱（）。 [B]
A.人工智能 B.機(jī)器學(xué)習(xí) C.神經(jīng)網(wǎng)絡(luò) D.深度學(xué)習(xí)
18.當(dāng)數(shù)據(jù)特征不明顯、數(shù)據(jù)量少的時(shí)候，采用下面哪個(gè)模型（）。 [C]
A.線性回歸 B.邏輯回歸 C.支持向量機(jī) D.神經(jīng)網(wǎng)絡(luò)
19.機(jī)器學(xué)習(xí)的流程包括:分析案例、數(shù)據(jù)獲取、（）和模型驗(yàn)證這四個(gè)過程。 [C]
A.數(shù)據(jù)清洗 B.數(shù)據(jù)分析 C.模型訓(xùn)練 D.模型搭建
20.一般而言，某個(gè)人的學(xué)習(xí)時(shí)間長短與測驗(yàn)成績之間的關(guān)系是：（）。 [D]
A.不能確定 B.負(fù)相關(guān) C.不相關(guān) D.正相關(guān)
21.Matplotlib中的哪個(gè)包提供了一批操作和繪圖函數(shù)？（）。 [A]
A.pyplot B.Bar C.rcparams D.pprint
22.Numpy.random模塊中用于對一個(gè)序列進(jìn)行隨機(jī)排序的函數(shù)是（）。 [B]
A.uniform B.shuffle C.permutation D.normal
23.以下哪種不是Python第三方庫的安裝方法（）。 [B]
A.pip install B.pip install -U pip C.pip update D.pip uninstall
24.以下哪個(gè)軟件包用于矩陣和向量的科學(xué)計(jì)算？（）。 [A]
A.Numpy B.Pandas C.Matplotlib D.Seaborn
25.在邏輯斯蒂（對數(shù)幾率）回歸中將輸出y視為樣本x屬于正例的概率。給定訓(xùn)練數(shù)據(jù)集，通常采用（）來估計(jì)參數(shù)w和b，最大化樣本屬于其真實(shí)類標(biāo)記的概率的對數(shù)，即最大化對數(shù)似然。 [B]
A.最小二乘法 B.極大似然法 C.交叉驗(yàn)證法 D.留出法
26.使下面哪個(gè)函數(shù)可以將線性回歸線轉(zhuǎn)為邏輯回歸線?（）。 [A]
A.Sigmoid B.高斯核函數(shù) C.P(A) D.H(x)
27.支持向量機(jī)的簡稱是（）。 [D]
A.AI B.ML C.ANN D.SVM
28.線性回歸方程y=-2x+7揭示了割草機(jī)的剩余油量（升）與工作時(shí)間（小時(shí)）的關(guān)系，以下關(guān)于斜率描述正確的是：（）。 [C]
A.割草機(jī)可以被預(yù)測到的油量是2升 B.割草機(jī)每工作1小時(shí)大約需要消耗7升油 C.割草機(jī)每工作1小時(shí)大約需要消耗2升油 D.割草機(jī)工作1小時(shí)后剩余油量是2升
29.如果學(xué)習(xí)率過大，以下描述正確的是：（）。 [A]
A.模型需要更長的訓(xùn)練時(shí)間才能收斂到最優(yōu)值 B.模型需要消耗更多的計(jì)算資源 C.模型難以泛化
30.下面不屬于人工神經(jīng)網(wǎng)絡(luò)的是（）。 [C]
A.卷積神經(jīng)網(wǎng)絡(luò) B.循環(huán)神經(jīng)網(wǎng)絡(luò) C.網(wǎng)絡(luò)森林 D.深度神經(jīng)網(wǎng)絡(luò)
31.Numpy提供了兩種基本對象，一種是ndarray，另一種是（）。 [B]
A.array B.func C.matrix D.Series
32.以下（）函數(shù)可以在繪制圖表時(shí)，設(shè)置x軸的名稱。 [C]
A.xlim() B.ylim() C.xlabel() D.xticks()
33.用于度量樣本點(diǎn)之間距離的距離度量函數(shù)有（）。 [D]
A.連續(xù)屬性距離度量函數(shù) B.離散屬性距離度量函數(shù) C.混合屬性距離度量函數(shù) D.以上都是
34.使用Pandas庫設(shè)置索引使用哪種方法（ ? ? ）。 [D]
A.merge()方法 B.concat()方法 C.to_datetime()方法 D.set_index()方法
35.對于機(jī)器學(xué)習(xí)表述下列正確的是（）。 [B]
A.機(jī)器學(xué)習(xí)和人工智能是獨(dú)立的兩種技術(shù) B.機(jī)器學(xué)習(xí)是人工智能的核心技術(shù)和重要分支 C.機(jī)器學(xué)習(xí)的目標(biāo)是讓機(jī)器設(shè)備像人類一樣學(xué)習(xí)書本知識(shí) D.機(jī)器學(xué)習(xí)是指一系列程序邏輯控制算法
36.下列選項(xiàng)中不能創(chuàng)建Numpy數(shù)組的選項(xiàng)是（）。 [B]
A.a = numpy.array([1,2,3]) B.a = numpy.array([1,[1,2,3],3]) C.a = numpy.array([[1,2,3],[4,5,6]]) D.a = numpy.array([[‘xiao’,’qian’],[‘xiao’,’feng’]])
37.如果你有10000000 個(gè)樣本，將如何劃分?jǐn)?shù)據(jù)集？（）。 [A]
A.98% train ，1% dev ，1% test B.34% train，33% dev，33% test C.60% train，20% dev，20% test D.50% train ，20% dev ，30% test
38.%matplotlib inline指令的作用是：（）。 [A]
A.將Matplotlib命令繪制的圖形嵌入到當(dāng)前文檔中顯示 B.Matplotlib命令可以用于當(dāng)前文檔繪圖 C.Matplotlib命令只能在文檔內(nèi)部運(yùn)行 D.必須包含該指令，Matplotlib命令才能被執(zhí)行
39.假設(shè)我們獲得了具有n條記錄的數(shù)據(jù)集，其中輸入變量為x，輸出變量為y。使用線性回歸方法對該數(shù)據(jù)集進(jìn)行建模，將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測試集。如果我們逐漸增加訓(xùn)練集的大小，隨著訓(xùn)練集大小的增加，則平均訓(xùn)練誤差會(huì)發(fā)生什么變化？（）。 [C]
A.減少 B.不確定 C.以上都不對
40.機(jī)器學(xué)習(xí)的簡稱是（）。 [B]
A.AI B.ML C.DL D.NN
41.對沒有標(biāo)簽的數(shù)據(jù)進(jìn)行分類的問題屬于機(jī)器學(xué)習(xí)中哪一類問題（）。 [C]
A.回歸 B.分類 C.聚類 D.強(qiáng)化
42.有程序段：
a=np.random.randn(4,3)
b=np.random.randn(3,2)
c=a*b
根據(jù)數(shù)組a、b、c的定義，推斷c的維度為：（）。 [D]
A.c.shape = (3, 3) B.c.shape = (4,2) C.c.shape = (4, 3) D.c的計(jì)算會(huì)出錯(cuò)，因?yàn)閍和b的維度不匹配

多項(xiàng)選擇題

1.神經(jīng)網(wǎng)絡(luò)優(yōu)化計(jì)算存在的問題有（）。 [ABC]
A.解的不穩(wěn)定性 B.參數(shù)難以確定 C.難以保證最優(yōu)解 D.能量函數(shù)存在大量局部極大值
2.下列Python數(shù)據(jù)類型中，可變數(shù)據(jù)類型是（）。 [AC]
A.字典 B.元組 C.列表 D.字符串
3.下面哪些Python數(shù)據(jù)類型是有序序列（）。 [ABD]
A.元組 B.列表 C.字典 D.字符串
4.決定人工神經(jīng)網(wǎng)絡(luò)性能的要素有（）。 [ABC]
A.神經(jīng)元的特性 B.神經(jīng)元之間相互連接的形式為拓?fù)浣Y(jié)構(gòu) C.為適應(yīng)環(huán)境而改善性能的學(xué)習(xí)規(guī)則 D.數(shù)據(jù)量大小
5.Python語言的應(yīng)用領(lǐng)域有（）。 [ABCD]
A.Web開發(fā) B.操作系統(tǒng)管理和服務(wù)器運(yùn)維的自動(dòng)化腳本 C.科學(xué)計(jì)算 D.游戲開發(fā)
6.前饋型神經(jīng)網(wǎng)絡(luò)常用于（）。 [AD]
A.圖像識(shí)別 B.文本處理 C.問答系統(tǒng) D.圖像檢測
7.機(jī)器學(xué)習(xí)的實(shí)現(xiàn)過程，包括數(shù)據(jù)收集、（ … ）。等環(huán)節(jié)。 [ABCD]
A.數(shù)據(jù)分析處理 B.算法選擇 C.訓(xùn)練模型 D.模型調(diào)整
8.以下屬于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用方向的是（）。 [ABCD]
A.自動(dòng)控制 B.信號(hào)處理 C.軟測量 D.智能計(jì)算
9.Python語言的特點(diǎn)有（）。 [ABD]
A.簡單易學(xué) B.開源 C.面向過程 D.可移植性
10.傳統(tǒng)機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域有（）。 [ABD]
A.信用風(fēng)險(xiǎn)檢測 B.銷售預(yù)測 C.語音合成 D.商品推薦
11.下列說法不正確的是（）。 [CD]
A.Pandas庫中處理數(shù)據(jù)缺陷時(shí)經(jīng)常會(huì)使用dropna將缺陷數(shù)據(jù)清除 B.Pandas庫中isnull判斷數(shù)據(jù)是否為空 C.Pandas不能讀取csv文本 D.Pandas能夠讀取word文件
12.一個(gè)完整的人工神經(jīng)網(wǎng)絡(luò)包括（）。 [AC]
A.一層輸入層 B.多層分析層 C.多層隱藏層 D.兩層輸出層
13.按照學(xué)習(xí)方式的不同，可以將機(jī)器學(xué)習(xí)分為以下哪幾類（）。 [ABC]
A.有監(jiān)督學(xué)習(xí) B.無監(jiān)督學(xué)習(xí) C.半監(jiān)督學(xué)習(xí) D.自主學(xué)習(xí)
14.以下屬于深度學(xué)習(xí)框架的有：（）。 [ABCD]
A.Keras B.TensorFlow C.PaddlePaddle D.PyTorch
15.（）和（）是分類任務(wù)中最常用的兩種評(píng)估指標(biāo)。 [BC]
A.查全率 B.錯(cuò)誤率 C.準(zhǔn)確率（精度） D.查準(zhǔn)率
16.機(jī)器學(xué)習(xí)的核心要素包括（）。 [ACD]
A.數(shù)據(jù) B.操作人員 C.算法 D.算力
17.關(guān)于sigmoid函數(shù)，以下描述正確的是：（）。 [ABD]
A.輸出值的范圍為0-1之間的實(shí)數(shù) B.輸入值靠近0的位置，輸入與輸出近似線性關(guān)系 C.輸入值靠近0的位置，斜率近似為0 D.輸入值是任意的實(shí)數(shù)
18.在多分類學(xué)習(xí)中，經(jīng)典的拆分策略有（）。 [ACD]
A.一對其余（One vs Rest） B.二對二（Two vs Two） C.多對多（Many vs Many） D.一對一（One vs One）
19.a = numpy.array([[1,2,3],[4,5,6]])
下列選項(xiàng)中可以選取數(shù)字5的索引的是（）。 [AC]
A.a[1][1] B.a[2][2] C.a[1,1] D.a[2,2]
20.以下哪些屬于分類問題的是：（）。 [BCD]
A.多標(biāo)簽單分類 B.單標(biāo)簽多分類 C.二分類 D.多標(biāo)簽多分類
21.如何判斷一個(gè)理想的訓(xùn)練集？（）。 [ABC]
A.理想的訓(xùn)練集具有均衡的多樣性分布，不容易發(fā)生過擬合現(xiàn)象 B.相對于樣本的數(shù)量，樣本自身的代表性和質(zhì)量更為重要 C.數(shù)據(jù)集的內(nèi)容與模型需要達(dá)成的目標(biāo)具有高度的一致性 D.交叉驗(yàn)證方法可以彌補(bǔ)數(shù)據(jù)集的缺陷
22.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘之間的關(guān)系和區(qū)別為（）。 [ABC]
A.數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)和數(shù)據(jù)庫的交叉。 B.數(shù)據(jù)挖掘主要利用機(jī)器學(xué)習(xí)界提供的技術(shù)來分析海量數(shù)據(jù)，利用數(shù)據(jù)庫界提供的技術(shù)來管理海量數(shù)據(jù)。 C.機(jī)器學(xué)習(xí)偏理論，數(shù)據(jù)挖掘偏應(yīng)用。 D.兩者是相互獨(dú)立的兩種數(shù)據(jù)處理技術(shù)。
23.下列哪些函數(shù)語句可以設(shè)置坐標(biāo)軸的刻度：（）。 [AB]
A.plt.xticks() B.plt.yticks() C.plt.xlabel() D.plt.ylabel()
24.在現(xiàn)實(shí)世界的數(shù)據(jù)中，缺失值是常有的，一般的處理方法有（）。 [ABCD]
A.忽略 B.刪除 C.平均值填充 D.最大值填充
25.以下哪些方法可以用于評(píng)估分類算法的性能：（）。 [ABC]
A.F1 Score B.精確率 C.AUC D.預(yù)測結(jié)果分布
26.在類不平衡數(shù)據(jù)集中，（）和（）通常作為更合適的性能度量。 [AB]
A.查全率 B.查準(zhǔn)率 C.錯(cuò)誤率 D.準(zhǔn)確率

判斷題

1.集合中的元素沒有特定順序但可以重復(fù)。 [B]

2.在距離度量中，最常用的是“閔可夫斯基距離”。當(dāng)p=2時(shí)，閔可夫斯基距離就是歐式距離，當(dāng)p=1時(shí)，閔可夫斯基距離就是曼哈頓距離。 [A]

3.聚類和分類的區(qū)別在于用于聚類的訓(xùn)練樣本的類標(biāo)記是未知的。 [A]

4.機(jī)器學(xué)習(xí)算法在圖像識(shí)別領(lǐng)域的性能表現(xiàn)可能會(huì)超過人類。 [A]

5.列表是不可變對象，支持在原處修改。 [B]

6.決策樹學(xué)習(xí)是一種逼近離散值目標(biāo)函數(shù)的方法，學(xué)習(xí)到的函數(shù)被表示為一棵決策樹。 [A]

7.梯度下降，就是沿著函數(shù)的梯度（導(dǎo)數(shù)）方向更新自變量，使得函數(shù)的取值越來越小，直至達(dá)到全局最小或者局部最小。 [A]

8.學(xué)習(xí)率越大，訓(xùn)練速度越快，最優(yōu)解越精確。 [B]

9.線性回歸是一種有監(jiān)督機(jī)器學(xué)習(xí)算法，它使用真實(shí)的標(biāo)簽進(jìn)行訓(xùn)練。 [A]

10.最小二乘法是基于預(yù)測值和真實(shí)值的均方差最小化的方法來估計(jì)線性回歸學(xué)習(xí)器的參數(shù)w和b。 [A]

11.完成的訓(xùn)練模型可以保存為外部文件，再次使用模型時(shí)，不需要重新訓(xùn)練。 [A]

12.精確率、查全率、準(zhǔn)確率、F1分?jǐn)?shù)四種指標(biāo)各有側(cè)重，指標(biāo)值都是越高越好，最佳值均為1，最差值均為0。 [A]

13.查全率越高，意味著模型漏掉的樣本越少，當(dāng)假陰性的成本很高時(shí)，查全率指標(biāo)有助于衡量模型的好壞。 [A]

14.列表、元組和字符串都支持雙向索引，有效索引的范圍為[-L,L]，L為列表、元組或字符串的長度。 [B]

15.列表、元組和字符串屬于有序序列，其中的元素有嚴(yán)格的先后順序。 [A]

16.一般的，一棵決策樹包含一個(gè)根結(jié)點(diǎn)、若干個(gè)內(nèi)部結(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn)；葉結(jié)點(diǎn)對應(yīng)于決策結(jié)果，其他每個(gè)結(jié)點(diǎn)則對應(yīng)于一個(gè)屬性測試；根結(jié)點(diǎn)包含樣本全集。 [A]

17.Sigmoid函數(shù)能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出。 [A]

18.監(jiān)督學(xué)習(xí)的學(xué)習(xí)數(shù)據(jù)既有特征（feature），也有標(biāo)簽（label）。 [A]

19.線性回歸主要用于解決回歸問題，其因變量是連續(xù)的值。 [A]

20.k均值算法，是一種原型聚類算法。 [A]

21.聚類生成的組稱為簇，簇內(nèi)任意對象之間具有較高的相似度，而簇間任意對象之間具有較高的相異度。 [A]

22.超參數(shù)選擇不當(dāng)，會(huì)對模型有較大的負(fù)面影響，所以在參數(shù)調(diào)整策略方面，所有超參數(shù)都同等重要。 [B]

23.訓(xùn)練集與驗(yàn)證集的樣本是不同的。 [A]

24.在各類機(jī)器學(xué)習(xí)算法中，過擬合和欠擬合都是可以徹底避免的。 [B]

25.尋找最優(yōu)超參數(shù)費(fèi)時(shí)費(fèi)力，應(yīng)該在模型訓(xùn)練之前就指定最優(yōu)參數(shù)。 [B]

26.準(zhǔn)確率是所有正確識(shí)別的樣本占樣本總量的比例。當(dāng)所有類別都同等重要時(shí)，采用準(zhǔn)確率最為簡單直觀。 [A]

27.Pandas中利用merge函數(shù)合并數(shù)據(jù)表時(shí)默認(rèn)的是內(nèi)連接方式。 [A]

28.同一個(gè)列表中的元素的數(shù)據(jù)類型可以各不相同。 [A]

29.回歸中利用最小二乘法主要通過最小化誤差的平方來尋找一個(gè)數(shù)據(jù)匹配的最佳函數(shù)。 [A]

30.均方根誤差與均方誤差二者沒有關(guān)系。 [B]

31.k近鄰學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法，其工作機(jī)制為：給定測試樣本，基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本，然后基于這k個(gè)鄰居信息進(jìn)行預(yù)測。因此k近鄰算法的核心是k值和距離度量的選取。 [A]

32.信息熵是度量樣本集合純度最常用的一種指標(biāo)。信息熵的值越大，說明樣本集合的純度越高。 [B]

33.Sigmoid函數(shù)的導(dǎo)數(shù)是以它本身為因變量的函數(shù)。 [A]

34.數(shù)據(jù)集一般劃分為訓(xùn)練集、驗(yàn)證集和測試集三部分，訓(xùn)練集用于建模，驗(yàn)證集（開發(fā)集）用于模型驗(yàn)證與矯正，測試集用于模型的最終評(píng)估。 [A]

35.F1值是精確率與查全率的加權(quán)平均值，綜合平衡了精確率與查全率兩個(gè)指標(biāo)的特點(diǎn)，F1值突出對分類錯(cuò)誤的評(píng)估。 [A]

36.在數(shù)據(jù)規(guī)模較小時(shí)，通過數(shù)據(jù)增強(qiáng)技術(shù)，可以有效彌補(bǔ)數(shù)據(jù)集的不足，擴(kuò)充數(shù)據(jù)量，改善數(shù)據(jù)分布，提升模型訓(xùn)練質(zhì)量。 [A]

37.嶺回歸是對線性回歸的優(yōu)化，在線性回歸的基礎(chǔ)上，對損失函數(shù)增加了一個(gè)L2正則項(xiàng)，目的是降低方差，提高模型泛化能力。 [A]

38.訓(xùn)練/測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性，避免因數(shù)據(jù)劃分過程引入額外的偏差而對最終結(jié)果產(chǎn)生影響，例如在分類任務(wù)中至少要保持樣本的類別比例相似。 [A]

39.Python使用lambda創(chuàng)建匿名函數(shù)，匿名函數(shù)擁有自己的命名空間。 [A]

40.Pandas中可以通過行索引或行索引位置的切片形式選取行數(shù)據(jù)。 [A]

41.面對大規(guī)模數(shù)據(jù)集時(shí)，模型訓(xùn)練更容易發(fā)生過擬合現(xiàn)象。 [B]

42.直觀上看，我們希望“物以類聚”，即聚類的結(jié)果“簇內(nèi)相似度”高，且“簇間”相似度低。 [A]

43.若按照屬性a劃分后獲得的信息增益越大，意味著使用屬性a劃分所獲得的純度提升越大。因此，可選擇獲得最大信息增益的屬性作為決策樹的最優(yōu)劃分屬性。著名的ID3決策樹學(xué)習(xí)算法就是以信息增益為準(zhǔn)則來選擇劃分屬性的。 [A]

44.通過求解損失函數(shù)的最小值，可以實(shí)現(xiàn)求解模型參數(shù)、優(yōu)化模型參數(shù)和評(píng)價(jià)模型學(xué)習(xí)效果的目的。 [A]

45.邏輯回歸算法是一種廣義的線性回歸分析方法，它僅在線性回歸算法的基礎(chǔ)上，利用Sigmoid函數(shù)對事件發(fā)生的概率進(jìn)行預(yù)測。 [A]

46.邏輯斯蒂（對數(shù)幾率）回歸是一種回歸學(xué)習(xí)方法。 [B]

47.正則化是為了防止模型過擬合而引入額外信息，對模型原有邏輯進(jìn)行外部干預(yù)和修正，從而提高模型的泛化能力。 [A]

48.聚類需要從沒有標(biāo)簽的一組輸入向量中尋找數(shù)據(jù)的模型和規(guī)律。 [A]

49.對于大規(guī)模數(shù)據(jù)集而言，數(shù)據(jù)增強(qiáng)是一種有效提升數(shù)據(jù)質(zhì)量的手段。 [A]

50.Lasso回歸是對線性回歸的優(yōu)化，在線性回歸的基礎(chǔ)上，對損失函數(shù)增加了一個(gè)L1正則項(xiàng)，目的是降低方差，提高模型泛化能力。 [A]

51.回歸預(yù)測的目標(biāo)函數(shù)是離散值，分類預(yù)測的目標(biāo)函數(shù)是連續(xù)值。 [B]

52.數(shù)據(jù)標(biāo)準(zhǔn)化有利于加快模型的收斂速度，提升模型的泛化能力。 [A]

53.精確率越高，意味著誤報(bào)率越低，因此，當(dāng)誤報(bào)的成本較高時(shí)，精確率指標(biāo)有助于判斷模型的好壞。 [A]

填空題

1.Series是一種一維數(shù)組對象，包含一個(gè)值序列。Series中的數(shù)據(jù)通過（）訪問。 [索引]

2.理想中的激活函數(shù)是階躍函數(shù)，但因其不連續(xù)、不光滑，實(shí)際常用（）作為激活函數(shù)。該函數(shù)把可能在較大范圍內(nèi)變化的輸入值擠壓到（0，1）輸出值范圍內(nèi)，因此有時(shí)也被稱為“擠壓函數(shù)”。 [sigmoid函數(shù)]

3.屬性shape返回的是（）。 [維度]

4.自助法約有（）的樣本沒有出現(xiàn)在訓(xùn)練集中，可用作測試集。 [1/3]

5.Numpy中的ndarray的size屬性返回的是（）。 [數(shù)組元素個(gè)數(shù)]

6.從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”或（），這個(gè)過程通過執(zhí)行某個(gè)學(xué)習(xí)算法來完成。 [訓(xùn)練]

7.SVM的主要目標(biāo)是尋找最佳（），以便在不同類的數(shù)據(jù)間進(jìn)行正確分類。 [超平面]

8.當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得“太好”了的時(shí)候，可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì)，這樣就會(huì)導(dǎo)致泛化性能下降。這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為（）。 [過擬合]

9.訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”，其中每個(gè)樣本稱為一個(gè)“訓(xùn)練樣本”；學(xué)得模型后，使用其進(jìn)行預(yù)測的過程稱為（）。 [測試]

10.sklearn模塊的（）子模塊提供了多種自帶的數(shù)據(jù)集，可以通過這些數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)處理、建模等操作，從而練習(xí)使用sklearn模塊實(shí)現(xiàn)數(shù)據(jù)分析的處理流程和建模流程。 [datasets]

11.Pandas通過read_json函數(shù)讀取（）數(shù)據(jù)。 [JSON]

12.回歸任務(wù)中最常用的性能度量是（）。 [均方誤差]

13.Numpy的主要數(shù)據(jù)類型是（）。 [ndarray]

14.若訓(xùn)練過程的目標(biāo)是預(yù)測連續(xù)值，此類學(xué)習(xí)任務(wù)稱為（）。 [回歸]

15.聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集，每個(gè)子集稱為一個(gè)（）。 [簇]

16.在K-Means算法中，由簇的（）來代表整個(gè)簇。 [平均值]

17.高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難等問題，是所以機(jī)器學(xué)習(xí)方法共同面臨的嚴(yán)重障礙，被稱為（）。 [維數(shù)災(zāi)難]

18.學(xué)得模型適用于新樣本的能力，稱為（）能力。該能力越強(qiáng)，說明學(xué)得的模型越能很好地適用于整個(gè)樣本空間。 [泛化]

19.Scipy中的（）模塊提供了常用的優(yōu)化方法。 [optimize]

20.一個(gè)DataFrame對象的屬性values和ndim分別指數(shù)據(jù)元素和（）。 [維度]

21.Numpy中的random模塊中的函數(shù)shuffle的功能是對一個(gè)序列進(jìn)行（）。 [隨機(jī)排序]

22.scikit-learn是面向（）方向第三方庫。 [機(jī)器學(xué)習(xí)]

23.線性學(xué)習(xí)適合結(jié)合連續(xù)屬性值的問題，對于離散屬性值的問題，需要首先將其（），這一步也稱為數(shù)字化編碼。 [連續(xù)化]

24.（）是緩解維數(shù)災(zāi)難的一個(gè)重要途徑，即通過某種誰學(xué)變換將原始高維屬性空間轉(zhuǎn)變?yōu)橐粋€(gè)低維“子空間”，在這個(gè)子空間中樣本密度大幅提高，距離計(jì)算也變得更為容易。 [降維]

25.測試集應(yīng)該盡可能與訓(xùn)練集（），即測試樣本盡量不在訓(xùn)練集中出現(xiàn)、未在訓(xùn)練過程中使用過。 [互斥]

26.若訓(xùn)練過程的目標(biāo)是預(yù)測離散值，此類任務(wù)稱為（）。 [分類]

27.已知字典dic={‘w’:97,‘a(chǎn)’:19}，則dic.get(‘w’, None)的值是（）。 [97]

28.Pandas中的（）方法可以根據(jù)索引或字段對數(shù)據(jù)進(jìn)行分組。 [groupby]

29.Scipy中的（）模塊包含大量用于科學(xué)計(jì)算的常數(shù)。 [constants]

30.反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng)，例如“色澤”等，稱為“屬性”（attribute）或“特征”（feature），屬性上的取值，例如“青綠”“烏黑”，稱為（）。 [屬性值]

31.利用二分類學(xué)習(xí)器解決多分類任務(wù)的基本策略是對多分類任務(wù)進(jìn)行（），為拆出的每個(gè)二分類任務(wù)訓(xùn)練一個(gè)分類器，然后對每個(gè)分類器的預(yù)測結(jié)果進(jìn)行集成，以獲得最終的多分類結(jié)果。 [拆分]

32.數(shù)組轉(zhuǎn)置是數(shù)據(jù)重塑的一種特殊形式，可以通過（）方法或數(shù)組的T屬性實(shí)現(xiàn)。 [transpose]

33.通常（）作為泛化誤差的近似。 [測試誤差]

34.創(chuàng)建一個(gè)范圍在(0,1)之間的長度為12的等差數(shù)列的語句是（）。 [np.linspace(0,1,12)]

35.根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息，可將學(xué)習(xí)任務(wù)大致劃分為有監(jiān)督學(xué)習(xí)和（）。 [無監(jiān)督學(xué)習(xí)]

36.matplotlib庫是用于（）方向的第三方庫。 [數(shù)據(jù)可視化]

37.（）分析通過建模研究多個(gè)自變量對因變量的影響強(qiáng)度，預(yù)測數(shù)值型目標(biāo)值。 [回歸]

38.學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差或經(jīng)驗(yàn)誤差，在新樣本上的誤差稱（）。該誤差越小，說明學(xué)習(xí)器的學(xué)習(xí)性能越好。 [泛化誤差]

簡答題

1.簡述數(shù)據(jù)分析中進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化的主要原因。
[數(shù)據(jù)的不同特征之間往往具有不同的量綱，由此造成數(shù)值間的差異很大。為了消除特征之間量綱和取值范圍的差異可能會(huì)造成的影響，需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。]

2.簡述強(qiáng)化學(xué)習(xí)的概念。
[強(qiáng)化學(xué)習(xí)是以在某個(gè)環(huán)境下行動(dòng)的智能體獲得的獎(jiǎng)勵(lì)最大化為目標(biāo)而進(jìn)行學(xué)習(xí)的方法。用于描述和解決智能體在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題，基于與環(huán)境的交互是最大特征。通過嘗試來發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果，對各個(gè)動(dòng)作產(chǎn)生的結(jié)果進(jìn)行反饋（獎(jiǎng)勵(lì)或懲罰）。在這種學(xué)習(xí)模式下，輸入數(shù)據(jù)直接反饋到模型，模型再做出調(diào)整。]

3.簡述Jupyter notebook的功能。
[Jupyter Notebook是開源的Web應(yīng)用程序，允許用戶創(chuàng)建和共享包含代碼、方程式、可視化和文本的文檔。在編輯的過程中，每次編輯一行代碼就可以運(yùn)行一行代碼，運(yùn)行的結(jié)果也可以顯示在代碼的下方，方便查看。當(dāng)所有的程序編寫和運(yùn)行完畢之后，還可以直接把編輯和運(yùn)行之后的所有信息保存在文件中。用途包括：數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計(jì)建模、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等等。它具有以下優(yōu)勢：1）可選擇語言：支持超過40種編程語言，包括Python、R、Julia、Scala等；2）分享筆記本：可以使用電子郵件、Dropbox、GitHub和Jupyter Notebook Viewer與他人共享；3）交互式輸出：代碼可以生成豐富的交互式輸出，包括HTML、圖像、視頻、LaTeX等；4）大數(shù)據(jù)整合：通過Python、R、Scala編程語言使用Apache Spark等大數(shù)據(jù)框架工具。支持使用pandas、scikit-learn、ggplot2、TensorFlow來探索同一份數(shù)據(jù)。]

4.簡述機(jī)器學(xué)習(xí)與人工智能的關(guān)系。
[相比機(jī)器學(xué)習(xí)，人工智能具有更加廣泛的含義，它包括知識(shí)表示、智能推理等基礎(chǔ)領(lǐng)域和機(jī)器人、自然語言處理、計(jì)算機(jī)視覺等應(yīng)用領(lǐng)域，而機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方法。機(jī)器學(xué)習(xí)并非實(shí)現(xiàn)人工智能的唯一方法，但是近年來人工智能的研究一般使用機(jī)器學(xué)習(xí)。實(shí)現(xiàn)人工智能的方法還有很多，比如根據(jù)事先定好的規(guī)則進(jìn)行數(shù)理統(tǒng)計(jì)預(yù)測等方法。]

5.簡述過擬合和欠擬合的概念及應(yīng)對方案。
[當(dāng)訓(xùn)練損失較大時(shí)，說明模型不能對數(shù)據(jù)進(jìn)行很好的擬合，稱這種情況為欠擬合。當(dāng)訓(xùn)練誤差小且明顯低于泛化誤差時(shí)，稱這種情況為過擬合，此時(shí)模型的泛化能力往往較弱。對于欠擬合情況，通常是由于模型本身不能對訓(xùn)練集進(jìn)行擬合或者訓(xùn)練迭代次數(shù)太少，解決問題的主要方法是對模型進(jìn)行改進(jìn)、設(shè)計(jì)新的模型重新訓(xùn)練、增加訓(xùn)練過程的迭代次數(shù)等。對于過擬合的情況，往往是由于數(shù)據(jù)量太少或者模型太復(fù)雜導(dǎo)致，可以通過增加訓(xùn)練數(shù)據(jù)量、對模型進(jìn)行裁剪、正則化等方式來緩解。]

6.回歸任務(wù)和分類任務(wù)的區(qū)別是什么？
[回歸：預(yù)測連續(xù)值的學(xué)習(xí)任務(wù)成為回歸。分類：預(yù)測離散值的學(xué)習(xí)任務(wù)稱為分類。]

7.簡述K-means聚類算法流程。
[參考輸入：樣本集D，簇的數(shù)目k，最大迭代次數(shù)N；輸出：簇劃分（k個(gè)簇，使平方誤差最小）；算法步驟：1）為每個(gè)聚類選擇一個(gè)初始聚類中心；2）將樣本集按照最小距離原則分配到最鄰近聚類；3）使用每個(gè)聚類的樣本均值更新聚類中心；4）重復(fù)步驟2、3，直到聚類中心不再發(fā)生變化；5）輸出最終的聚類中心和k個(gè)簇劃分。]

8.簡述機(jī)器學(xué)習(xí)的定義。
[機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)結(jié)合的產(chǎn)物，主要研究如何選擇統(tǒng)計(jì)學(xué)習(xí)模型，從大量已有數(shù)據(jù)中學(xué)習(xí)特定經(jīng)驗(yàn)。機(jī)器學(xué)習(xí)中的經(jīng)驗(yàn)稱為模型，機(jī)器學(xué)習(xí)的過程即根據(jù)一定的性能度量準(zhǔn)則對模型參數(shù)進(jìn)行近似求解，以使得模型在面對新數(shù)據(jù)時(shí)能夠給出相應(yīng)的經(jīng)驗(yàn)指導(dǎo)。機(jī)器學(xué)習(xí)的定義：為“對于某類任務(wù)T和性能度量P，一個(gè)計(jì)算機(jī)程序被認(rèn)為可以從經(jīng)驗(yàn)E中學(xué)習(xí)是指：通過經(jīng)驗(yàn)E改進(jìn)后，它在任務(wù)T上的性能度量P有所提升。”]

9.什么是最小二乘法？
[基于預(yù)測值和真實(shí)值的均方誤差最小化來進(jìn)行求解的方法叫做最小二乘法。在線性回歸中，最小二乘法就是試圖找到一條直線，使所有樣本到直線上的歐氏距離之和最小。求解w和b使得均方誤差最小化的過程，稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”。]

10.簡述scikit-learn庫的功能。
[Scikit-learn是基于NumPy、SciPy和Matplotlib的開源Python機(jī)器學(xué)習(xí)包，它封裝了一系列數(shù)據(jù)預(yù)處理、機(jī)器學(xué)習(xí)算法、模型選擇等工具，是數(shù)據(jù)分析師首選的機(jī)器學(xué)習(xí)工具包。scikit-learn是Python重要的機(jī)器學(xué)習(xí)庫，scikit-learn簡稱sklearn，支持包括分類，回歸，降維和聚類四大機(jī)器學(xué)習(xí)算法。還包括了特征提取，數(shù)據(jù)處理和模型評(píng)估三大模塊。]

11.簡述Markdown語言。
[Markdown是一種可以使用普通文本編輯器編寫的標(biāo)記語言，通過簡單的標(biāo)記語法，它可以使普通文本內(nèi)容具有一定的格式。Markdown具有一系列衍生版本，用于擴(kuò)展Markdown的功能（如表格、腳注、內(nèi)嵌HTML等等），這些功能原初的Markdown尚不具備，它們能讓Markdown轉(zhuǎn)換成更多的格式，例如LaTeX，Docbook等]

12.簡述有監(jiān)督學(xué)習(xí)的概念及其典型任務(wù)。
[有監(jiān)督學(xué)習(xí)是將問題的答案告知計(jì)算機(jī)，使計(jì)算機(jī)進(jìn)行學(xué)習(xí)并給出機(jī)器學(xué)習(xí)模型的方法。這種方法要求數(shù)據(jù)中包含表示特征的數(shù)據(jù)和作為答案的目標(biāo)數(shù)據(jù)。有監(jiān)督學(xué)習(xí)處理的對象是所謂的有標(biāo)簽訓(xùn)練數(shù)據(jù)，它利用有標(biāo)簽的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)一個(gè)模型，它的目標(biāo)是用學(xué)到的模型給無標(biāo)簽的測試數(shù)據(jù)打上標(biāo)簽。其典型任務(wù)包括：分類和回歸任務(wù)、決策樹、貝葉斯模型、支持向量機(jī)、深度學(xué)習(xí)等。]

13.簡述混淆矩陣的概念。
[混淆矩陣（Confusion Matrix）是理解大多數(shù)評(píng)價(jià)指標(biāo)的基礎(chǔ)。從集合的角度來看，定義∪為并集運(yùn)算符，則混淆矩陣具有：樣本全集 = ???∪???∪???∪???、任何一個(gè)樣本屬于且只屬于4個(gè)集合中的一個(gè)，沒有交集的特征。混淆矩陣包含四部分的信息：1）真陽率（True Positive，TP）表明實(shí)際是正樣本預(yù)測成正樣本的樣本數(shù)；2）假陰率（False Negative，FN）表明實(shí)際是正樣本預(yù)測成負(fù)樣本的樣本數(shù)；3）假陽率（False Positive，FP）表明實(shí)際是負(fù)樣本預(yù)測成正樣本的樣本數(shù)；4）真陰率（True Negative，TN）表明實(shí)際是負(fù)樣本預(yù)測成負(fù)樣本的樣本數(shù)。]

14.有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別是什么，各舉出一個(gè)例子。
[有監(jiān)督學(xué)習(xí)：對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，如分類和回歸。無監(jiān)督學(xué)習(xí)：對未標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，如聚類。]

15.簡述半監(jiān)督學(xué)習(xí)的概念。
[半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法，介于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間，輸入數(shù)據(jù)部分被標(biāo)識(shí)，部分沒有被標(biāo)識(shí)，沒標(biāo)識(shí)數(shù)據(jù)的數(shù)量常常遠(yuǎn)遠(yuǎn)大于有標(biāo)識(shí)數(shù)據(jù)數(shù)量。某些情況下，我們僅能夠獲得部分樣本的標(biāo)簽，半監(jiān)督學(xué)習(xí)就是同時(shí)從有標(biāo)簽數(shù)據(jù)及無標(biāo)簽數(shù)據(jù)中進(jìn)行經(jīng)驗(yàn)學(xué)習(xí)的機(jī)器學(xué)習(xí)。這種學(xué)習(xí)模型可以用來進(jìn)行預(yù)測，但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進(jìn)行預(yù)測。]

16.簡述正則化項(xiàng)中的L1和L2方法。
[參考正則化（Normalization）是一種抑制模型復(fù)雜度的常用方法。L1正則化和L2正則化可以看作損失函數(shù)的懲罰項(xiàng)。L1正則化是指權(quán)值向量w中各個(gè)元素的絕對值之和。L2正則化是指權(quán)值向量w中各個(gè)元素的平方和然后再求平方根（可以看到Ridge 回歸的L2 正則化項(xiàng)有平方符號(hào)）。L1正則化可以產(chǎn)生稀疏權(quán)值矩陣，即產(chǎn)生一個(gè)稀疏模型，可以用于特征選擇；L2正則化可以防止模型過擬合；一定程度上，L1正則化也可以防止過擬合。]

17.簡述數(shù)據(jù)集的概念。
[數(shù)據(jù)是進(jìn)行機(jī)器學(xué)習(xí)的基礎(chǔ)，所有數(shù)據(jù)的集合稱為數(shù)據(jù)集。數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。測試數(shù)據(jù)即為測試集，是需要應(yīng)用模型進(jìn)行預(yù)測的那部分?jǐn)?shù)據(jù)，是機(jī)器學(xué)習(xí)所有工作的最終服務(wù)對象。為了防止訓(xùn)練出來的模型只對訓(xùn)練數(shù)據(jù)有效，一般將訓(xùn)練數(shù)據(jù)又分為訓(xùn)練集和驗(yàn)證集，訓(xùn)練集用來訓(xùn)練模型，而驗(yàn)證集一般只用來驗(yàn)證模型的有效性，不參與模型訓(xùn)練。]

18.k均值算法采用了什么策略？簡要描述其算法流程。
[k均值算法采用了貪心策略。其算法流程為：1. 輸入樣本集D、聚類簇?cái)?shù)k；2. 對均值向量進(jìn)行初始化（從D中隨機(jī)選擇k個(gè)樣本作為初始化均值向量）；3. 依次對當(dāng)前簇劃分及均值向量迭代更新；4. 若迭代更新后聚類結(jié)果保持不變，則將當(dāng)前簇劃分結(jié)果返回。]

19.簡述scikit-learn庫的通用學(xué)習(xí)模式。
[1）導(dǎo)入訓(xùn)練數(shù)據(jù)；2）數(shù)據(jù)劃分；3）數(shù)據(jù)預(yù)處理；4）特征選擇；5）選擇機(jī)器學(xué)習(xí)方法訓(xùn)練得到模型。6）預(yù)測數(shù)據(jù)；7）模型評(píng)估、驗(yàn)證、參數(shù)調(diào)優(yōu)。按此順序，或以關(guān)鍵部分展開陳述。]

20.簡述numpy庫的功能。
[numpy是SciPy、Pandas等數(shù)據(jù)處理或科學(xué)計(jì)算庫的基礎(chǔ)。它提供了許多高級(jí)的數(shù)值編程工具，如：矩陣數(shù)據(jù)類型、矢量處理，以及精密的運(yùn)算庫，為進(jìn)行嚴(yán)格的數(shù)字處理而產(chǎn)生。numpy是開源的Python科學(xué)計(jì)算基礎(chǔ)庫，具有強(qiáng)大的N維數(shù)組對象ndarray、成熟的（廣播）函數(shù)庫、整合了C/C++/Fortran代碼的工具、實(shí)用的線性代數(shù)、傅里葉變換和隨機(jī)數(shù)生成函數(shù)、與稀疏矩陣運(yùn)算包scipy配合使用更加方便等特征。]

21.簡述準(zhǔn)確率、精確率與召回率的概念。
[準(zhǔn)確率（Accuracy）是最為常見的一項(xiàng)指標(biāo)，即預(yù)測正確的結(jié)果占總樣本的百分比；精確率（Precision）又稱查準(zhǔn)率，是針對預(yù)測結(jié)果而言的，表示在所有被預(yù)測為正的樣本中實(shí)際為正的樣本的概率。召回率（Recall）又叫查全率，是針對原樣本而言的，表示在所有實(shí)際為正類的樣本中被預(yù)測為正樣本的概率。]

22.簡述回歸分析的主要過程。
[回歸分析可以簡單理解為數(shù)據(jù)分析與預(yù)測，通過對數(shù)據(jù)進(jìn)行分析實(shí)現(xiàn)預(yù)測，也就是適當(dāng)擴(kuò)大已有自變量的取值范圍，并承認(rèn)該回歸方程在擴(kuò)大的定義域內(nèi)成立。一般來說，回歸分析的主要過程和步驟如下：（1）收集一組包含因變量和自變量的數(shù)據(jù)；（2）根據(jù)因變量和自變量之間的關(guān)系，初步設(shè)定回歸模型；（3）求解合理的回歸系數(shù)；（4）進(jìn)行相關(guān)性檢驗(yàn)，確定相關(guān)系數(shù)；（5）利用模型對因變量作出預(yù)測或解釋，并計(jì)算預(yù)測值的置信區(qū)間。]

23.簡述有監(jiān)督學(xué)習(xí)中分類和回歸的區(qū)別。
[1）輸出不同。分類問題輸出的是物體所屬的類別，回歸問題輸出的是物體的值。分類問題輸出的值是定性的，回歸問題輸出的值是定量的。2）目的不同。分類的目的是為了尋找決策邊界，回歸的目的是為了找到最優(yōu)擬合。3）結(jié)果不同。分類的結(jié)果沒有逼近，對就是對，錯(cuò)就是錯(cuò)，回歸是對真實(shí)值的一種逼近預(yù)測。]

24.簡述機(jī)器學(xué)習(xí)的開發(fā)流程。
[1）問題構(gòu)建；2）獲取數(shù)據(jù)；3）準(zhǔn)備數(shù)據(jù)（數(shù)據(jù)清洗）；4）特征工程；5）選擇并定義模型；6）訓(xùn)練模型；7）評(píng)估模型；8部署模型。按此順序，或以關(guān)鍵部分展開陳述。]

25.簡要描述聚類的定義。
[聚類直觀上講是將相似的樣本聚在一起，形成一個(gè)類簇（或者說：將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集），試圖通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律，為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。]

26.什么是交叉驗(yàn)證法？
[交叉驗(yàn)證法先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集，每個(gè)子集都盡可能保持?jǐn)?shù)據(jù)分布的一致性，然后，每次用k-1個(gè)子集的并集作為訓(xùn)練集，余下那個(gè)子集作為測試集，這樣就可獲得k組訓(xùn)練/測試集，從而可進(jìn)行k次訓(xùn)練和測試，最終返回k個(gè)測試結(jié)果的均值。交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于k的取值，通常把交叉驗(yàn)證法稱為k折交叉驗(yàn)證。k常取10。在劃分過程中存在多種方式，通常要隨機(jī)使用不同的劃分重復(fù)p次，最終評(píng)估結(jié)果取p次驗(yàn)證結(jié)果的均值。]

27.簡述k-means算法的主要優(yōu)缺點(diǎn)及優(yōu)化方案。
[參考優(yōu)點(diǎn)：經(jīng)典、簡單、快速、對密集簇效果較好；缺點(diǎn)：對K值敏感，且只適用于能求距離均值的應(yīng)用，不適合非凸簇或大小差別很大的簇；改進(jìn)：二分k-means，k-means++…。]

28.簡述matplotlib庫的功能。
[matplotlib是Python優(yōu)秀的數(shù)據(jù)可視化第三方庫，是非常強(qiáng)大的Python畫圖工具。它可以以各種硬拷貝格式和跨平臺(tái)的交互式環(huán)境生成出版質(zhì)量級(jí)別的圖形，能繪制線圖、散點(diǎn)圖、等高線圖、條形圖、柱狀圖、3D 圖形、甚至是圖形動(dòng)畫等等。]

29.簡述SciPy的主要功能。
[Scipy是一款用于數(shù)學(xué)、科學(xué)和工程領(lǐng)域的Python工具包，可以處理插值、積分、優(yōu)化、圖像處理、常微分方程數(shù)值解的求解、信號(hào)處理等問題。]

30.簡述無監(jiān)督學(xué)習(xí)的概念及其典型任務(wù)。
[無監(jiān)督學(xué)習(xí)的數(shù)據(jù)中沒有作為答案的目標(biāo)變量，即無監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)沒有標(biāo)簽，它自動(dòng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識(shí)，建立模型。數(shù)據(jù)并不被特別標(biāo)識(shí)，計(jì)算機(jī)自行學(xué)習(xí)分析數(shù)據(jù)內(nèi)部的規(guī)律、特征等，進(jìn)而得出一定的結(jié)果（如內(nèi)部結(jié)構(gòu)、主要成分等）。其典型任務(wù)包括：聚類、降維。]

31.簡述Anaconda的功能。
[Anaconda是一個(gè)開源的Python發(fā)行版本，其包含了conda、Python等800多個(gè)科學(xué)包及其依賴項(xiàng)。它具有：開源免費(fèi)、內(nèi)置近800個(gè)第三方庫、包含多個(gè)主流工具、適合數(shù)據(jù)計(jì)算領(lǐng)域開發(fā)、支持多操作系統(tǒng)平臺(tái)等特征。]

32.簡述機(jī)器學(xué)習(xí)與人腦學(xué)習(xí)的異同。
[人類在成長、生活過程中積累了很多的歷史與經(jīng)驗(yàn)。人類定期地對這些經(jīng)驗(yàn)進(jìn)行“歸納”，獲得了生活的“規(guī)律”。當(dāng)人類遇到未知的問題或者需要對未來進(jìn)行“推測”的時(shí)候，人類使用這些“規(guī)律”，對未知問題與未來進(jìn)行“推測”，從而指導(dǎo)自己的生活和工作。機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測”過程可以對應(yīng)到人類的“歸納”和“推測”過程。通過這樣的對應(yīng)，發(fā)現(xiàn)機(jī)器學(xué)習(xí)的思想并不復(fù)雜，僅僅是對人類在生活中學(xué)習(xí)成長的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果，因此它的處理過程不是因果的邏輯，而是通過歸納思想得出的相關(guān)性結(jié)論。人腦：總結(jié)經(jīng)驗(yàn)、發(fā)現(xiàn)規(guī)律、預(yù)測未來；機(jī)器學(xué)習(xí)：訓(xùn)練數(shù)據(jù)、建立模型、預(yù)測未知屬性。]

33.簡述生成式模型和判別式模型的異同。
[根據(jù)機(jī)器學(xué)習(xí)模型是否可用于生成新數(shù)據(jù)，可以將機(jī)器學(xué)習(xí)模型分為生成模型和判別模型。生成模型是指通過機(jī)器學(xué)習(xí)算法，從訓(xùn)練集中學(xué)習(xí)到輸入和輸出的聯(lián)合概率分布??(??]

34.什么是線性回歸？
[1.給定由d個(gè)屬性描述的示例x，其中xi是x在第i個(gè)屬性上的取值，線性模型試圖學(xué)得一個(gè)通過屬性的線性組合來進(jìn)行預(yù)測的函數(shù)。2.給定數(shù)據(jù)集D，“線性回歸”試圖學(xué)得一個(gè)線性模型以盡可能準(zhǔn)確的預(yù)測實(shí)值輸出標(biāo)記。3.線性回歸試圖學(xué)得f（xi）=wxi+b，使得f（xi）≈yi。利用最小二乘法，使得均方誤差最小化，進(jìn)而求得w和b的最優(yōu)解。]

35.簡述分類和聚類的主要特點(diǎn)。
[分類是一種重要的數(shù)據(jù)分析形式，它提取刻畫重要數(shù)據(jù)類的模型。數(shù)據(jù)分類也被稱為有監(jiān)督學(xué)習(xí)，用來訓(xùn)練分類模型的數(shù)據(jù)需要有已標(biāo)注的標(biāo)簽，包括學(xué)習(xí)階段（構(gòu)建分類模型）和分類階段（使用模型預(yù)測給定數(shù)據(jù)的類標(biāo)號(hào)）兩個(gè)階段。將物理或抽象對象的集合分成由類似的對象組成的多個(gè)類的過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對象的集合，這些對象與同一個(gè)簇中的對象彼此相似，與其他簇中的對象相異。聚類不需要有事先標(biāo)注的標(biāo)簽。]

36.簡述機(jī)器學(xué)習(xí)的分類。
[按照功能分類，機(jī)器學(xué)習(xí)的功能大致可分為：回歸、分類和聚類；按照學(xué)習(xí)方式分類，機(jī)器學(xué)習(xí)的學(xué)習(xí)方式大體分為三類：有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。]

37.什么是k近鄰學(xué)習(xí)？
[k近鄰學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法，其工作機(jī)制為：給定測試樣本，基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本，然后基于這k個(gè)鄰居的信息來進(jìn)行預(yù)測。通常在分類任務(wù)中可使用“投票法”，即選擇這k個(gè)樣本中出現(xiàn)最多的類別標(biāo)記作為預(yù)測結(jié)果；在回歸任務(wù)中可使用平均法，即將這k個(gè)樣本的實(shí)值輸出標(biāo)記的平均值作為預(yù)測結(jié)果；還可基于距離遠(yuǎn)近進(jìn)行加權(quán)平均或者加權(quán)投票，距離越近的樣本權(quán)重越大。]

總結(jié)

以上是生活随笔為你收集整理的机器学习练习题的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： C++学习(10)
下一篇：使用webpack配置react并添加到