机器学习练习题
機(jī)器學(xué)習(xí)考試練習(xí)題
- 單項(xiàng)選擇題
- 多項(xiàng)選擇題
- 判斷題
- 填空題
- 簡(jiǎn)答題
單項(xiàng)選擇題
1.在NumPy中創(chuàng)建一個(gè)元素均為0的數(shù)組可以使用( )函數(shù)。 [A]
A.zeros( ) B.arange( ) C.linspace( ) D.logspace( )
2.通常( )誤差作為泛化誤差的近似。 [A]
A.測(cè)試 B.訓(xùn)練 C.經(jīng)驗(yàn) D.以上都可以
3.梯度為( )的點(diǎn),就是損失函數(shù)的最小值點(diǎn),一般認(rèn)為此時(shí)模型達(dá)到了收斂。 [B]
A.-1 B.0 C.1 D.無窮大
4.創(chuàng)建一個(gè)3*3的數(shù)組,下列代碼中錯(cuò)誤的是( )。 [C]
A.np.arange(0,9).reshape(3,3) B.np.eye(3) C.np.random.random([3,3,3]) D.np.mat(“1,2,3;4,5,6;7,8,9”)
5.關(guān)于數(shù)據(jù)集的標(biāo)準(zhǔn)化,正確的描述是:( )。 [A]
A.標(biāo)準(zhǔn)化有助于加快模型的收斂速度 B.標(biāo)準(zhǔn)化一定是歸一化,即數(shù)據(jù)集的取值分布在[0,1]區(qū)間上 C.數(shù)據(jù)集的標(biāo)準(zhǔn)化一定是讓標(biāo)準(zhǔn)差變?yōu)? D.所有的模型建模之前,必須進(jìn)行數(shù)據(jù)集標(biāo)準(zhǔn)化
6.Python安裝第三方庫的命令是( )。 [C]
A.pip –h B.pyinstaller <擬安裝庫名> C.pip install <擬安裝庫名> D.pip download <擬安裝庫名>
7.如果發(fā)現(xiàn)模型在驗(yàn)證集上的準(zhǔn)確性整體高于訓(xùn)練集,在驗(yàn)證集上的損失整體低于訓(xùn)練集,則最可能的情況是:( )。 [B]
A.驗(yàn)證集的數(shù)據(jù)樣本與訓(xùn)練集相比,數(shù)量過少和過于簡(jiǎn)單 B.模型沒有采用正則化方法 C.以上都對(duì)
8.DL是下面哪個(gè)術(shù)語的簡(jiǎn)稱( )。 [D]
A.人工智能 B.機(jī)器學(xué)習(xí) C.神經(jīng)網(wǎng)絡(luò) D.深度學(xué)習(xí)
9.驗(yàn)證集和測(cè)試集,應(yīng)該:( )。 [A]
A.樣本來自同一分布 B.樣本來自不同分布 C.樣本之間有一一對(duì)應(yīng)關(guān)系 D.擁有相同數(shù)量的樣本
10.一般使用以下哪種方法求解線性回歸問題:( )。 [A]
A.最小二乘法 B.最大似然估計(jì) C.對(duì)數(shù)變換 D.A和B
11.以下哪個(gè)函數(shù)可以實(shí)現(xiàn)畫布的創(chuàng)建?( )。 [C]
A.subplots( ) B.add_subplot( ) C.figure( ) D.subplot2grid( )
12.Numpy中統(tǒng)計(jì)數(shù)組元素個(gè)數(shù)的方法是( )。 [C]
A.ndim B.shape C.size D.itemsize
13.決策樹中的分類結(jié)果是最末端的節(jié)點(diǎn),這些節(jié)點(diǎn)稱為( )。 [D]
A.根節(jié)點(diǎn) B.父節(jié)點(diǎn) C.子節(jié)點(diǎn) D.葉節(jié)點(diǎn)
14.以下哪種不是Python第三方庫的安裝方法( )。 [C]
A.pip工具安裝 B.自定義安裝 C.網(wǎng)頁安裝 D.文件安裝
15.關(guān)于學(xué)習(xí)率,以下描述錯(cuò)誤的是:( )。 [B]
A.如果學(xué)習(xí)率足夠小,隨機(jī)梯度下降算法將更容易獲得全局最優(yōu)解。 B.降低學(xué)習(xí)率有可能導(dǎo)致模型訓(xùn)練時(shí)間增加。 C.以上都不對(duì)。
16.將數(shù)據(jù)集劃分成訓(xùn)練集S和測(cè)試集T的常見方法有( )。 [D]
A.留出法 B.交叉驗(yàn)證法 C.自助法 D.以上均正確
17.ML是下面哪個(gè)術(shù)語的簡(jiǎn)稱( )。 [B]
A.人工智能 B.機(jī)器學(xué)習(xí) C.神經(jīng)網(wǎng)絡(luò) D.深度學(xué)習(xí)
18.當(dāng)數(shù)據(jù)特征不明顯、數(shù)據(jù)量少的時(shí)候,采用下面哪個(gè)模型( )。 [C]
A.線性回歸 B.邏輯回歸 C.支持向量機(jī) D.神經(jīng)網(wǎng)絡(luò)
19.機(jī)器學(xué)習(xí)的流程包括:分析案例、數(shù)據(jù)獲取、( )和模型驗(yàn)證這四個(gè)過程。 [C]
A.數(shù)據(jù)清洗 B.數(shù)據(jù)分析 C.模型訓(xùn)練 D.模型搭建
20.一般而言,某個(gè)人的學(xué)習(xí)時(shí)間長短與測(cè)驗(yàn)成績之間的關(guān)系是:( )。 [D]
A.不能確定 B.負(fù)相關(guān) C.不相關(guān) D.正相關(guān)
21.Matplotlib中的哪個(gè)包提供了一批操作和繪圖函數(shù)?( )。 [A]
A.pyplot B.Bar C.rcparams D.pprint
22.Numpy.random模塊中用于對(duì)一個(gè)序列進(jìn)行隨機(jī)排序的函數(shù)是( )。 [B]
A.uniform B.shuffle C.permutation D.normal
23.以下哪種不是Python第三方庫的安裝方法( )。 [B]
A.pip install B.pip install -U pip C.pip update D.pip uninstall
24.以下哪個(gè)軟件包用于矩陣和向量的科學(xué)計(jì)算?( )。 [A]
A.Numpy B.Pandas C.Matplotlib D.Seaborn
25.在邏輯斯蒂(對(duì)數(shù)幾率)回歸中將輸出y視為樣本x屬于正例的概率。給定訓(xùn)練數(shù)據(jù)集,通常采用( )來估計(jì)參數(shù)w和b,最大化樣本屬于其真實(shí)類標(biāo)記的概率的對(duì)數(shù),即最大化對(duì)數(shù)似然。 [B]
A.最小二乘法 B.極大似然法 C.交叉驗(yàn)證法 D.留出法
26.使下面哪個(gè)函數(shù)可以將線性回歸線轉(zhuǎn)為邏輯回歸線?( )。 [A]
A.Sigmoid B.高斯核函數(shù) C.P(A) D.H(x)
27.支持向量機(jī)的簡(jiǎn)稱是( )。 [D]
A.AI B.ML C.ANN D.SVM
28.線性回歸方程y=-2x+7揭示了割草機(jī)的剩余油量(升)與工作時(shí)間(小時(shí))的關(guān)系,以下關(guān)于斜率描述正確的是:( )。 [C]
A.割草機(jī)可以被預(yù)測(cè)到的油量是2升 B.割草機(jī)每工作1小時(shí)大約需要消耗7升油 C.割草機(jī)每工作1小時(shí)大約需要消耗2升油 D.割草機(jī)工作1小時(shí)后剩余油量是2升
29.如果學(xué)習(xí)率過大,以下描述正確的是:( )。 [A]
A.模型需要更長的訓(xùn)練時(shí)間才能收斂到最優(yōu)值 B.模型需要消耗更多的計(jì)算資源 C.模型難以泛化
30.下面不屬于人工神經(jīng)網(wǎng)絡(luò)的是( )。 [C]
A.卷積神經(jīng)網(wǎng)絡(luò) B.循環(huán)神經(jīng)網(wǎng)絡(luò) C.網(wǎng)絡(luò)森林 D.深度神經(jīng)網(wǎng)絡(luò)
31.Numpy提供了兩種基本對(duì)象,一種是ndarray,另一種是( )。 [B]
A.array B.func C.matrix D.Series
32.以下( )函數(shù)可以在繪制圖表時(shí),設(shè)置x軸的名稱。 [C]
A.xlim() B.ylim() C.xlabel() D.xticks()
33.用于度量樣本點(diǎn)之間距離的距離度量函數(shù)有( )。 [D]
A.連續(xù)屬性距離度量函數(shù) B.離散屬性距離度量函數(shù) C.混合屬性距離度量函數(shù) D.以上都是
34.使用Pandas庫設(shè)置索引使用哪種方法( ? ? )。 [D]
A.merge()方法 B.concat()方法 C.to_datetime()方法 D.set_index()方法
35.對(duì)于機(jī)器學(xué)習(xí)表述下列正確的是( )。 [B]
A.機(jī)器學(xué)習(xí)和人工智能是獨(dú)立的兩種技術(shù) B.機(jī)器學(xué)習(xí)是人工智能的核心技術(shù)和重要分支 C.機(jī)器學(xué)習(xí)的目標(biāo)是讓機(jī)器設(shè)備像人類一樣學(xué)習(xí)書本知識(shí) D.機(jī)器學(xué)習(xí)是指一系列程序邏輯控制算法
36.下列選項(xiàng)中不能創(chuàng)建Numpy數(shù)組的選項(xiàng)是( )。 [B]
A.a = numpy.array([1,2,3]) B.a = numpy.array([1,[1,2,3],3]) C.a = numpy.array([[1,2,3],[4,5,6]]) D.a = numpy.array([[‘xiao’,’qian’],[‘xiao’,’feng’]])
37.如果你有10000000 個(gè)樣本,將如何劃分?jǐn)?shù)據(jù)集?( )。 [A]
A.98% train ,1% dev ,1% test B.34% train,33% dev,33% test C.60% train,20% dev,20% test D.50% train ,20% dev ,30% test
38.%matplotlib inline指令的作用是:( )。 [A]
A.將Matplotlib命令繪制的圖形嵌入到當(dāng)前文檔中顯示 B.Matplotlib命令可以用于當(dāng)前文檔繪圖 C.Matplotlib命令只能在文檔內(nèi)部運(yùn)行 D.必須包含該指令,Matplotlib命令才能被執(zhí)行
39.假設(shè)我們獲得了具有n條記錄的數(shù)據(jù)集,其中輸入變量為x,輸出變量為y。使用線性回歸方法對(duì)該數(shù)據(jù)集進(jìn)行建模,將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試集。如果我們逐漸增加訓(xùn)練集的大小,隨著訓(xùn)練集大小的增加,則平均訓(xùn)練誤差會(huì)發(fā)生什么變化?( )。 [C]
A.減少 B.不確定 C.以上都不對(duì)
40.機(jī)器學(xué)習(xí)的簡(jiǎn)稱是( )。 [B]
A.AI B.ML C.DL D.NN
41.對(duì)沒有標(biāo)簽的數(shù)據(jù)進(jìn)行分類的問題屬于機(jī)器學(xué)習(xí)中哪一類問題( )。 [C]
A.回歸 B.分類 C.聚類 D.強(qiáng)化
42.有程序段:
a=np.random.randn(4,3)
b=np.random.randn(3,2)
c=a*b
根據(jù)數(shù)組a、b、c的定義,推斷c的維度為:( )。 [D]
A.c.shape = (3, 3) B.c.shape = (4,2) C.c.shape = (4, 3) D.c的計(jì)算會(huì)出錯(cuò),因?yàn)閍和b的維度不匹配
多項(xiàng)選擇題
1.神經(jīng)網(wǎng)絡(luò)優(yōu)化計(jì)算存在的問題有( )。 [ABC]
A.解的不穩(wěn)定性 B.參數(shù)難以確定 C.難以保證最優(yōu)解 D.能量函數(shù)存在大量局部極大值
2.下列Python數(shù)據(jù)類型中,可變數(shù)據(jù)類型是( )。 [AC]
A.字典 B.元組 C.列表 D.字符串
3.下面哪些Python數(shù)據(jù)類型是有序序列( )。 [ABD]
A.元組 B.列表 C.字典 D.字符串
4.決定人工神經(jīng)網(wǎng)絡(luò)性能的要素有( )。 [ABC]
A.神經(jīng)元的特性 B.神經(jīng)元之間相互連接的形式為拓?fù)浣Y(jié)構(gòu) C.為適應(yīng)環(huán)境而改善性能的學(xué)習(xí)規(guī)則 D.數(shù)據(jù)量大小
5.Python語言的應(yīng)用領(lǐng)域有( )。 [ABCD]
A.Web開發(fā) B.操作系統(tǒng)管理和服務(wù)器運(yùn)維的自動(dòng)化腳本 C.科學(xué)計(jì)算 D.游戲開發(fā)
6.前饋型神經(jīng)網(wǎng)絡(luò)常用于( )。 [AD]
A.圖像識(shí)別 B.文本處理 C.問答系統(tǒng) D.圖像檢測(cè)
7.機(jī)器學(xué)習(xí)的實(shí)現(xiàn)過程,包括數(shù)據(jù)收集、( … )。等環(huán)節(jié)。 [ABCD]
A.數(shù)據(jù)分析處理 B.算法選擇 C.訓(xùn)練模型 D.模型調(diào)整
8.以下屬于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用方向的是( )。 [ABCD]
A.自動(dòng)控制 B.信號(hào)處理 C.軟測(cè)量 D.智能計(jì)算
9.Python語言的特點(diǎn)有( )。 [ABD]
A.簡(jiǎn)單易學(xué) B.開源 C.面向過程 D.可移植性
10.傳統(tǒng)機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域有( )。 [ABD]
A.信用風(fēng)險(xiǎn)檢測(cè) B.銷售預(yù)測(cè) C.語音合成 D.商品推薦
11.下列說法不正確的是( )。 [CD]
A.Pandas庫中處理數(shù)據(jù)缺陷時(shí)經(jīng)常會(huì)使用dropna將缺陷數(shù)據(jù)清除 B.Pandas庫中isnull判斷數(shù)據(jù)是否為空 C.Pandas不能讀取csv文本 D.Pandas能夠讀取word文件
12.一個(gè)完整的人工神經(jīng)網(wǎng)絡(luò)包括( )。 [AC]
A.一層輸入層 B.多層分析層 C.多層隱藏層 D.兩層輸出層
13.按照學(xué)習(xí)方式的不同,可以將機(jī)器學(xué)習(xí)分為以下哪幾類( )。 [ABC]
A.有監(jiān)督學(xué)習(xí) B.無監(jiān)督學(xué)習(xí) C.半監(jiān)督學(xué)習(xí) D.自主學(xué)習(xí)
14.以下屬于深度學(xué)習(xí)框架的有:( )。 [ABCD]
A.Keras B.TensorFlow C.PaddlePaddle D.PyTorch
15.( )和( )是分類任務(wù)中最常用的兩種評(píng)估指標(biāo)。 [BC]
A.查全率 B.錯(cuò)誤率 C.準(zhǔn)確率(精度) D.查準(zhǔn)率
16.機(jī)器學(xué)習(xí)的核心要素包括( )。 [ACD]
A.數(shù)據(jù) B.操作人員 C.算法 D.算力
17.關(guān)于sigmoid函數(shù),以下描述正確的是:( )。 [ABD]
A.輸出值的范圍為0-1之間的實(shí)數(shù) B.輸入值靠近0的位置,輸入與輸出近似線性關(guān)系 C.輸入值靠近0的位置,斜率近似為0 D.輸入值是任意的實(shí)數(shù)
18.在多分類學(xué)習(xí)中,經(jīng)典的拆分策略有( )。 [ACD]
A.一對(duì)其余(One vs Rest) B.二對(duì)二(Two vs Two) C.多對(duì)多(Many vs Many) D.一對(duì)一(One vs One)
19.a = numpy.array([[1,2,3],[4,5,6]])
下列選項(xiàng)中可以選取數(shù)字5的索引的是( )。 [AC]
A.a[1][1] B.a[2][2] C.a[1,1] D.a[2,2]
20.以下哪些屬于分類問題的是:( )。 [BCD]
A.多標(biāo)簽單分類 B.單標(biāo)簽多分類 C.二分類 D.多標(biāo)簽多分類
21.如何判斷一個(gè)理想的訓(xùn)練集?( )。 [ABC]
A.理想的訓(xùn)練集具有均衡的多樣性分布,不容易發(fā)生過擬合現(xiàn)象 B.相對(duì)于樣本的數(shù)量,樣本自身的代表性和質(zhì)量更為重要 C.數(shù)據(jù)集的內(nèi)容與模型需要達(dá)成的目標(biāo)具有高度的一致性 D.交叉驗(yàn)證方法可以彌補(bǔ)數(shù)據(jù)集的缺陷
22.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘之間的關(guān)系和區(qū)別為( )。 [ABC]
A.數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)和數(shù)據(jù)庫的交叉。 B.數(shù)據(jù)挖掘主要利用機(jī)器學(xué)習(xí)界提供的技術(shù)來分析海量數(shù)據(jù),利用數(shù)據(jù)庫界提供的技術(shù)來管理海量數(shù)據(jù)。 C.機(jī)器學(xué)習(xí)偏理論,數(shù)據(jù)挖掘偏應(yīng)用。 D.兩者是相互獨(dú)立的兩種數(shù)據(jù)處理技術(shù)。
23.下列哪些函數(shù)語句可以設(shè)置坐標(biāo)軸的刻度:( )。 [AB]
A.plt.xticks() B.plt.yticks() C.plt.xlabel() D.plt.ylabel()
24.在現(xiàn)實(shí)世界的數(shù)據(jù)中,缺失值是常有的,一般的處理方法有( )。 [ABCD]
A.忽略 B.刪除 C.平均值填充 D.最大值填充
25.以下哪些方法可以用于評(píng)估分類算法的性能:( )。 [ABC]
A.F1 Score B.精確率 C.AUC D.預(yù)測(cè)結(jié)果分布
26.在類不平衡數(shù)據(jù)集中,( )和( )通常作為更合適的性能度量。 [AB]
A.查全率 B.查準(zhǔn)率 C.錯(cuò)誤率 D.準(zhǔn)確率
判斷題
1.集合中的元素沒有特定順序但可以重復(fù)。 [B]
2.在距離度量中,最常用的是“閔可夫斯基距離”。當(dāng)p=2時(shí),閔可夫斯基距離就是歐式距離,當(dāng)p=1時(shí),閔可夫斯基距離就是曼哈頓距離。 [A]
3.聚類和分類的區(qū)別在于用于聚類的訓(xùn)練樣本的類標(biāo)記是未知的。 [A]
4.機(jī)器學(xué)習(xí)算法在圖像識(shí)別領(lǐng)域的性能表現(xiàn)可能會(huì)超過人類。 [A]
5.列表是不可變對(duì)象,支持在原處修改。 [B]
6.決策樹學(xué)習(xí)是一種逼近離散值目標(biāo)函數(shù)的方法,學(xué)習(xí)到的函數(shù)被表示為一棵決策樹。 [A]
7.梯度下降,就是沿著函數(shù)的梯度(導(dǎo)數(shù))方向更新自變量,使得函數(shù)的取值越來越小,直至達(dá)到全局最小或者局部最小。 [A]
8.學(xué)習(xí)率越大,訓(xùn)練速度越快,最優(yōu)解越精確。 [B]
9.線性回歸是一種有監(jiān)督機(jī)器學(xué)習(xí)算法,它使用真實(shí)的標(biāo)簽進(jìn)行訓(xùn)練。 [A]
10.最小二乘法是基于預(yù)測(cè)值和真實(shí)值的均方差最小化的方法來估計(jì)線性回歸學(xué)習(xí)器的參數(shù)w和b。 [A]
11.完成的訓(xùn)練模型可以保存為外部文件,再次使用模型時(shí),不需要重新訓(xùn)練。 [A]
12.精確率、查全率、準(zhǔn)確率、F1分?jǐn)?shù)四種指標(biāo)各有側(cè)重,指標(biāo)值都是越高越好,最佳值均為1,最差值均為0。 [A]
13.查全率越高,意味著模型漏掉的樣本越少,當(dāng)假陰性的成本很高時(shí),查全率指標(biāo)有助于衡量模型的好壞。 [A]
14.列表、元組和字符串都支持雙向索引,有效索引的范圍為[-L,L],L為列表、元組或字符串的長度。 [B]
15.列表、元組和字符串屬于有序序列,其中的元素有嚴(yán)格的先后順序。 [A]
16.一般的,一棵決策樹包含一個(gè)根結(jié)點(diǎn)、若干個(gè)內(nèi)部結(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn);葉結(jié)點(diǎn)對(duì)應(yīng)于決策結(jié)果,其他每個(gè)結(jié)點(diǎn)則對(duì)應(yīng)于一個(gè)屬性測(cè)試;根結(jié)點(diǎn)包含樣本全集。 [A]
17.Sigmoid函數(shù)能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出。 [A]
18.監(jiān)督學(xué)習(xí)的學(xué)習(xí)數(shù)據(jù)既有特征(feature),也有標(biāo)簽(label)。 [A]
19.線性回歸主要用于解決回歸問題,其因變量是連續(xù)的值。 [A]
20.k均值算法,是一種原型聚類算法。 [A]
21.聚類生成的組稱為簇,簇內(nèi)任意對(duì)象之間具有較高的相似度,而簇間任意對(duì)象之間具有較高的相異度。 [A]
22.超參數(shù)選擇不當(dāng),會(huì)對(duì)模型有較大的負(fù)面影響,所以在參數(shù)調(diào)整策略方面,所有超參數(shù)都同等重要。 [B]
23.訓(xùn)練集與驗(yàn)證集的樣本是不同的。 [A]
24.在各類機(jī)器學(xué)習(xí)算法中,過擬合和欠擬合都是可以徹底避免的。 [B]
25.尋找最優(yōu)超參數(shù)費(fèi)時(shí)費(fèi)力,應(yīng)該在模型訓(xùn)練之前就指定最優(yōu)參數(shù)。 [B]
26.準(zhǔn)確率是所有正確識(shí)別的樣本占樣本總量的比例。當(dāng)所有類別都同等重要時(shí),采用準(zhǔn)確率最為簡(jiǎn)單直觀。 [A]
27.Pandas中利用merge函數(shù)合并數(shù)據(jù)表時(shí)默認(rèn)的是內(nèi)連接方式。 [A]
28.同一個(gè)列表中的元素的數(shù)據(jù)類型可以各不相同。 [A]
29.回歸中利用最小二乘法主要通過最小化誤差的平方來尋找一個(gè)數(shù)據(jù)匹配的最佳函數(shù)。 [A]
30.均方根誤差與均方誤差二者沒有關(guān)系。 [B]
31.k近鄰學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法,其工作機(jī)制為:給定測(cè)試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)鄰居信息進(jìn)行預(yù)測(cè)。因此k近鄰算法的核心是k值和距離度量的選取。 [A]
32.信息熵是度量樣本集合純度最常用的一種指標(biāo)。信息熵的值越大,說明樣本集合的純度越高。 [B]
33.Sigmoid函數(shù)的導(dǎo)數(shù)是以它本身為因變量的函數(shù)。 [A]
34.數(shù)據(jù)集一般劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分,訓(xùn)練集用于建模,驗(yàn)證集(開發(fā)集)用于模型驗(yàn)證與矯正,測(cè)試集用于模型的最終評(píng)估。 [A]
35.F1值是精確率與查全率的加權(quán)平均值,綜合平衡了精確率與查全率兩個(gè)指標(biāo)的特點(diǎn),F1值突出對(duì)分類錯(cuò)誤的評(píng)估。 [A]
36.在數(shù)據(jù)規(guī)模較小時(shí),通過數(shù)據(jù)增強(qiáng)技術(shù),可以有效彌補(bǔ)數(shù)據(jù)集的不足,擴(kuò)充數(shù)據(jù)量,改善數(shù)據(jù)分布,提升模型訓(xùn)練質(zhì)量。 [A]
37.嶺回歸是對(duì)線性回歸的優(yōu)化,在線性回歸的基礎(chǔ)上,對(duì)損失函數(shù)增加了一個(gè)L2正則項(xiàng),目的是降低方差,提高模型泛化能力。 [A]
38.訓(xùn)練/測(cè)試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性,避免因數(shù)據(jù)劃分過程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響,例如在分類任務(wù)中至少要保持樣本的類別比例相似。 [A]
39.Python使用lambda創(chuàng)建匿名函數(shù),匿名函數(shù)擁有自己的命名空間。 [A]
40.Pandas中可以通過行索引或行索引位置的切片形式選取行數(shù)據(jù)。 [A]
41.面對(duì)大規(guī)模數(shù)據(jù)集時(shí),模型訓(xùn)練更容易發(fā)生過擬合現(xiàn)象。 [B]
42.直觀上看,我們希望“物以類聚”,即聚類的結(jié)果“簇內(nèi)相似度”高,且“簇間”相似度低。 [A]
43.若按照屬性a劃分后獲得的信息增益越大,意味著使用屬性a劃分所獲得的純度提升越大。因此,可選擇獲得最大信息增益的屬性作為決策樹的最優(yōu)劃分屬性。著名的ID3決策樹學(xué)習(xí)算法就是以信息增益為準(zhǔn)則來選擇劃分屬性的。 [A]
44.通過求解損失函數(shù)的最小值,可以實(shí)現(xiàn)求解模型參數(shù)、優(yōu)化模型參數(shù)和評(píng)價(jià)模型學(xué)習(xí)效果的目的。 [A]
45.邏輯回歸算法是一種廣義的線性回歸分析方法,它僅在線性回歸算法的基礎(chǔ)上,利用Sigmoid函數(shù)對(duì)事件發(fā)生的概率進(jìn)行預(yù)測(cè)。 [A]
46.邏輯斯蒂(對(duì)數(shù)幾率)回歸是一種回歸學(xué)習(xí)方法。 [B]
47.正則化是為了防止模型過擬合而引入額外信息,對(duì)模型原有邏輯進(jìn)行外部干預(yù)和修正,從而提高模型的泛化能力。 [A]
48.聚類需要從沒有標(biāo)簽的一組輸入向量中尋找數(shù)據(jù)的模型和規(guī)律。 [A]
49.對(duì)于大規(guī)模數(shù)據(jù)集而言,數(shù)據(jù)增強(qiáng)是一種有效提升數(shù)據(jù)質(zhì)量的手段。 [A]
50.Lasso回歸是對(duì)線性回歸的優(yōu)化,在線性回歸的基礎(chǔ)上,對(duì)損失函數(shù)增加了一個(gè)L1正則項(xiàng),目的是降低方差,提高模型泛化能力。 [A]
51.回歸預(yù)測(cè)的目標(biāo)函數(shù)是離散值,分類預(yù)測(cè)的目標(biāo)函數(shù)是連續(xù)值。 [B]
52.數(shù)據(jù)標(biāo)準(zhǔn)化有利于加快模型的收斂速度,提升模型的泛化能力。 [A]
53.精確率越高,意味著誤報(bào)率越低,因此,當(dāng)誤報(bào)的成本較高時(shí),精確率指標(biāo)有助于判斷模型的好壞。 [A]
填空題
1.Series是一種一維數(shù)組對(duì)象,包含一個(gè)值序列。Series中的數(shù)據(jù)通過( )訪問。 [索引]
2.理想中的激活函數(shù)是階躍函數(shù),但因其不連續(xù)、不光滑,實(shí)際常用( )作為激活函數(shù)。該函數(shù)把可能在較大范圍內(nèi)變化的輸入值擠壓到(0,1)輸出值范圍內(nèi),因此有時(shí)也被稱為“擠壓函數(shù)”。 [sigmoid函數(shù)]
3.屬性shape返回的是( )。 [維度]
4.自助法約有( )的樣本沒有出現(xiàn)在訓(xùn)練集中,可用作測(cè)試集。 [1/3]
5.Numpy中的ndarray的size屬性返回的是( )。 [數(shù)組元素個(gè)數(shù)]
6.從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”或( ),這個(gè)過程通過執(zhí)行某個(gè)學(xué)習(xí)算法來完成。 [訓(xùn)練]
7.SVM的主要目標(biāo)是尋找最佳( ),以便在不同類的數(shù)據(jù)間進(jìn)行正確分類。 [超平面]
8.當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得“太好”了的時(shí)候,可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化性能下降。這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為( )。 [過擬合]
9.訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”,其中每個(gè)樣本稱為一個(gè)“訓(xùn)練樣本”;學(xué)得模型后,使用其進(jìn)行預(yù)測(cè)的過程稱為( )。 [測(cè)試]
10.sklearn模塊的( )子模塊提供了多種自帶的數(shù)據(jù)集,可以通過這些數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)處理、建模等操作,從而練習(xí)使用sklearn模塊實(shí)現(xiàn)數(shù)據(jù)分析的處理流程和建模流程。 [datasets]
11.Pandas通過read_json函數(shù)讀取( )數(shù)據(jù)。 [JSON]
12.回歸任務(wù)中最常用的性能度量是( )。 [均方誤差]
13.Numpy的主要數(shù)據(jù)類型是( )。 [ndarray]
14.若訓(xùn)練過程的目標(biāo)是預(yù)測(cè)連續(xù)值,此類學(xué)習(xí)任務(wù)稱為( )。 [回歸]
15.聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集,每個(gè)子集稱為一個(gè)( )。 [簇]
16.在K-Means算法中,由簇的( )來代表整個(gè)簇。 [平均值]
17.高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難等問題,是所以機(jī)器學(xué)習(xí)方法共同面臨的嚴(yán)重障礙,被稱為( )。 [維數(shù)災(zāi)難]
18.學(xué)得模型適用于新樣本的能力,稱為( )能力。該能力越強(qiáng),說明學(xué)得的模型越能很好地適用于整個(gè)樣本空間。 [泛化]
19.Scipy中的( )模塊提供了常用的優(yōu)化方法。 [optimize]
20.一個(gè)DataFrame對(duì)象的屬性values和ndim分別指數(shù)據(jù)元素和( )。 [維度]
21.Numpy中的random模塊中的函數(shù)shuffle的功能是對(duì)一個(gè)序列進(jìn)行( )。 [隨機(jī)排序]
22.scikit-learn是面向( )方向第三方庫。 [機(jī)器學(xué)習(xí)]
23.線性學(xué)習(xí)適合結(jié)合連續(xù)屬性值的問題,對(duì)于離散屬性值的問題,需要首先將其( ),這一步也稱為數(shù)字化編碼。 [連續(xù)化]
24.( )是緩解維數(shù)災(zāi)難的一個(gè)重要途徑,即通過某種誰學(xué)變換將原始高維屬性空間轉(zhuǎn)變?yōu)橐粋€(gè)低維“子空間”,在這個(gè)子空間中樣本密度大幅提高,距離計(jì)算也變得更為容易。 [降維]
25.測(cè)試集應(yīng)該盡可能與訓(xùn)練集( ),即測(cè)試樣本盡量不在訓(xùn)練集中出現(xiàn)、未在訓(xùn)練過程中使用過。 [互斥]
26.若訓(xùn)練過程的目標(biāo)是預(yù)測(cè)離散值,此類任務(wù)稱為( )。 [分類]
27.已知字典dic={‘w’:97,‘a(chǎn)’:19},則dic.get(‘w’, None)的值是( )。 [97]
28.Pandas中的( )方法可以根據(jù)索引或字段對(duì)數(shù)據(jù)進(jìn)行分組。 [groupby]
29.Scipy中的( )模塊包含大量用于科學(xué)計(jì)算的常數(shù)。 [constants]
30.反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng),例如“色澤”等,稱為“屬性”(attribute)或“特征”(feature),屬性上的取值,例如“青綠”“烏黑”,稱為( )。 [屬性值]
31.利用二分類學(xué)習(xí)器解決多分類任務(wù)的基本策略是對(duì)多分類任務(wù)進(jìn)行( ),為拆出的每個(gè)二分類任務(wù)訓(xùn)練一個(gè)分類器,然后對(duì)每個(gè)分類器的預(yù)測(cè)結(jié)果進(jìn)行集成,以獲得最終的多分類結(jié)果。 [拆分]
32.數(shù)組轉(zhuǎn)置是數(shù)據(jù)重塑的一種特殊形式,可以通過( )方法或數(shù)組的T屬性實(shí)現(xiàn)。 [transpose]
33.通常( )作為泛化誤差的近似。 [測(cè)試誤差]
34.創(chuàng)建一個(gè)范圍在(0,1)之間的長度為12的等差數(shù)列的語句是( )。 [np.linspace(0,1,12)]
35.根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,可將學(xué)習(xí)任務(wù)大致劃分為有監(jiān)督學(xué)習(xí)和( )。 [無監(jiān)督學(xué)習(xí)]
36.matplotlib庫是用于( )方向的第三方庫。 [數(shù)據(jù)可視化]
37.( )分析通過建模研究多個(gè)自變量對(duì)因變量的影響強(qiáng)度,預(yù)測(cè)數(shù)值型目標(biāo)值。 [回歸]
38.學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差或經(jīng)驗(yàn)誤差,在新樣本上的誤差稱( )。該誤差越小,說明學(xué)習(xí)器的學(xué)習(xí)性能越好。 [泛化誤差]
簡(jiǎn)答題
1.簡(jiǎn)述數(shù)據(jù)分析中進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化的主要原因。
[數(shù)據(jù)的不同特征之間往往具有不同的量綱,由此造成數(shù)值間的差異很大。為了消除特征之間量綱和取值范圍的差異可能會(huì)造成的影響,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。]
2.簡(jiǎn)述強(qiáng)化學(xué)習(xí)的概念。
[強(qiáng)化學(xué)習(xí)是以在某個(gè)環(huán)境下行動(dòng)的智能體獲得的獎(jiǎng)勵(lì)最大化為目標(biāo)而進(jìn)行學(xué)習(xí)的方法。用于描述和解決智能體在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題,基于與環(huán)境的交互是最大特征。通過嘗試來發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果,對(duì)各個(gè)動(dòng)作產(chǎn)生的結(jié)果進(jìn)行反饋(獎(jiǎng)勵(lì)或懲罰)。在這種學(xué)習(xí)模式下,輸入數(shù)據(jù)直接反饋到模型,模型再做出調(diào)整。]
3.簡(jiǎn)述Jupyter notebook的功能。
[Jupyter Notebook是開源的Web應(yīng)用程序,允許用戶創(chuàng)建和共享包含代碼、方程式、可視化和文本的文檔。在編輯的過程中,每次編輯一行代碼就可以運(yùn)行一行代碼,運(yùn)行的結(jié)果也可以顯示在代碼的下方,方便查看。當(dāng)所有的程序編寫和運(yùn)行完畢之后,還可以直接把編輯和運(yùn)行之后的所有信息保存在文件中。用途包括:數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計(jì)建模、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等等。它具有以下優(yōu)勢(shì):1)可選擇語言:支持超過40種編程語言,包括Python、R、Julia、Scala等;2)分享筆記本:可以使用電子郵件、Dropbox、GitHub和Jupyter Notebook Viewer與他人共享;3)交互式輸出:代碼可以生成豐富的交互式輸出,包括HTML、圖像、視頻、LaTeX等;4)大數(shù)據(jù)整合:通過Python、R、Scala編程語言使用Apache Spark等大數(shù)據(jù)框架工具。支持使用pandas、scikit-learn、ggplot2、TensorFlow來探索同一份數(shù)據(jù)。]
4.簡(jiǎn)述機(jī)器學(xué)習(xí)與人工智能的關(guān)系。
[相比機(jī)器學(xué)習(xí),人工智能具有更加廣泛的含義,它包括知識(shí)表示、智能推理等基礎(chǔ)領(lǐng)域和機(jī)器人、自然語言處理、計(jì)算機(jī)視覺等應(yīng)用領(lǐng)域,而機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方法。機(jī)器學(xué)習(xí)并非實(shí)現(xiàn)人工智能的唯一方法,但是近年來人工智能的研究一般使用機(jī)器學(xué)習(xí)。實(shí)現(xiàn)人工智能的方法還有很多,比如根據(jù)事先定好的規(guī)則進(jìn)行數(shù)理統(tǒng)計(jì)預(yù)測(cè)等方法。]
5.簡(jiǎn)述過擬合和欠擬合的概念及應(yīng)對(duì)方案。
[當(dāng)訓(xùn)練損失較大時(shí),說明模型不能對(duì)數(shù)據(jù)進(jìn)行很好的擬合,稱這種情況為欠擬合。當(dāng)訓(xùn)練誤差小且明顯低于泛化誤差時(shí),稱這種情況為過擬合,此時(shí)模型的泛化能力往往較弱。對(duì)于欠擬合情況,通常是由于模型本身不能對(duì)訓(xùn)練集進(jìn)行擬合或者訓(xùn)練迭代次數(shù)太少,解決問題的主要方法是對(duì)模型進(jìn)行改進(jìn)、設(shè)計(jì)新的模型重新訓(xùn)練、增加訓(xùn)練過程的迭代次數(shù)等。對(duì)于過擬合的情況,往往是由于數(shù)據(jù)量太少或者模型太復(fù)雜導(dǎo)致,可以通過增加訓(xùn)練數(shù)據(jù)量、對(duì)模型進(jìn)行裁剪、正則化等方式來緩解。]
6.回歸任務(wù)和分類任務(wù)的區(qū)別是什么?
[回歸:預(yù)測(cè)連續(xù)值的學(xué)習(xí)任務(wù)成為回歸。分類:預(yù)測(cè)離散值的學(xué)習(xí)任務(wù)稱為分類。]
7.簡(jiǎn)述K-means聚類算法流程。
[參考輸入:樣本集D,簇的數(shù)目k,最大迭代次數(shù)N;輸出:簇劃分(k個(gè)簇,使平方誤差最小);算法步驟:1)為每個(gè)聚類選擇一個(gè)初始聚類中心;2)將樣本集按照最小距離原則分配到最鄰近聚類;3)使用每個(gè)聚類的樣本均值更新聚類中心;4)重復(fù)步驟2、3,直到聚類中心不再發(fā)生變化;5)輸出最終的聚類中心和k個(gè)簇劃分。]
8.簡(jiǎn)述機(jī)器學(xué)習(xí)的定義。
[機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)結(jié)合的產(chǎn)物,主要研究如何選擇統(tǒng)計(jì)學(xué)習(xí)模型,從大量已有數(shù)據(jù)中學(xué)習(xí)特定經(jīng)驗(yàn)。機(jī)器學(xué)習(xí)中的經(jīng)驗(yàn)稱為模型,機(jī)器學(xué)習(xí)的過程即根據(jù)一定的性能度量準(zhǔn)則對(duì)模型參數(shù)進(jìn)行近似求解,以使得模型在面對(duì)新數(shù)據(jù)時(shí)能夠給出相應(yīng)的經(jīng)驗(yàn)指導(dǎo)。機(jī)器學(xué)習(xí)的定義:為“對(duì)于某類任務(wù)T和性能度量P,一個(gè)計(jì)算機(jī)程序被認(rèn)為可以從經(jīng)驗(yàn)E中學(xué)習(xí)是指:通過經(jīng)驗(yàn)E改進(jìn)后,它在任務(wù)T上的性能度量P有所提升。”]
9.什么是最小二乘法?
[基于預(yù)測(cè)值和真實(shí)值的均方誤差最小化來進(jìn)行求解的方法叫做最小二乘法。在線性回歸中,最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐氏距離之和最小。求解w和b使得均方誤差最小化的過程,稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”。]
10.簡(jiǎn)述scikit-learn庫的功能。
[Scikit-learn是基于NumPy、SciPy和Matplotlib的開源Python機(jī)器學(xué)習(xí)包,它封裝了一系列數(shù)據(jù)預(yù)處理、機(jī)器學(xué)習(xí)算法、模型選擇等工具,是數(shù)據(jù)分析師首選的機(jī)器學(xué)習(xí)工具包。scikit-learn是Python重要的機(jī)器學(xué)習(xí)庫,scikit-learn簡(jiǎn)稱sklearn,支持包括分類,回歸,降維和聚類四大機(jī)器學(xué)習(xí)算法。還包括了特征提取,數(shù)據(jù)處理和模型評(píng)估三大模塊。]
11.簡(jiǎn)述Markdown語言。
[Markdown是一種可以使用普通文本編輯器編寫的標(biāo)記語言,通過簡(jiǎn)單的標(biāo)記語法,它可以使普通文本內(nèi)容具有一定的格式。Markdown具有一系列衍生版本,用于擴(kuò)展Markdown的功能(如表格、腳注、內(nèi)嵌HTML等等),這些功能原初的Markdown尚不具備,它們能讓Markdown轉(zhuǎn)換成更多的格式,例如LaTeX,Docbook等]
12.簡(jiǎn)述有監(jiān)督學(xué)習(xí)的概念及其典型任務(wù)。
[有監(jiān)督學(xué)習(xí)是將問題的答案告知計(jì)算機(jī),使計(jì)算機(jī)進(jìn)行學(xué)習(xí)并給出機(jī)器學(xué)習(xí)模型的方法。這種方法要求數(shù)據(jù)中包含表示特征的數(shù)據(jù)和作為答案的目標(biāo)數(shù)據(jù)。有監(jiān)督學(xué)習(xí)處理的對(duì)象是所謂的有標(biāo)簽訓(xùn)練數(shù)據(jù),它利用有標(biāo)簽的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)一個(gè)模型,它的目標(biāo)是用學(xué)到的模型給無標(biāo)簽的測(cè)試數(shù)據(jù)打上標(biāo)簽。其典型任務(wù)包括:分類和回歸任務(wù)、決策樹、貝葉斯模型、支持向量機(jī)、深度學(xué)習(xí)等。]
13.簡(jiǎn)述混淆矩陣的概念。
[混淆矩陣(Confusion Matrix)是理解大多數(shù)評(píng)價(jià)指標(biāo)的基礎(chǔ)。從集合的角度來看,定義∪為并集運(yùn)算符,則混淆矩陣具有:樣本全集 = ???∪???∪???∪???、任何一個(gè)樣本屬于且只屬于4個(gè)集合中的一個(gè),沒有交集的特征。混淆矩陣包含四部分的信息:1)真陽率(True Positive,TP)表明實(shí)際是正樣本預(yù)測(cè)成正樣本的樣本數(shù);2)假陰率(False Negative,FN)表明實(shí)際是正樣本預(yù)測(cè)成負(fù)樣本的樣本數(shù);3)假陽率(False Positive,FP)表明實(shí)際是負(fù)樣本預(yù)測(cè)成正樣本的樣本數(shù);4)真陰率(True Negative,TN)表明實(shí)際是負(fù)樣本預(yù)測(cè)成負(fù)樣本的樣本數(shù)。]
14.有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別是什么,各舉出一個(gè)例子。
[有監(jiān)督學(xué)習(xí):對(duì)具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),如分類和回歸。無監(jiān)督學(xué)習(xí):對(duì)未標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),如聚類。]
15.簡(jiǎn)述半監(jiān)督學(xué)習(xí)的概念。
[半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法,介于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒有被標(biāo)識(shí),沒標(biāo)識(shí)數(shù)據(jù)的數(shù)量常常遠(yuǎn)遠(yuǎn)大于有標(biāo)識(shí)數(shù)據(jù)數(shù)量。某些情況下,我們僅能夠獲得部分樣本的標(biāo)簽,半監(jiān)督學(xué)習(xí)就是同時(shí)從有標(biāo)簽數(shù)據(jù)及無標(biāo)簽數(shù)據(jù)中進(jìn)行經(jīng)驗(yàn)學(xué)習(xí)的機(jī)器學(xué)習(xí)。這種學(xué)習(xí)模型可以用來進(jìn)行預(yù)測(cè),但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進(jìn)行預(yù)測(cè)。]
16.簡(jiǎn)述正則化項(xiàng)中的L1和L2方法。
[參考正則化(Normalization)是一種抑制模型復(fù)雜度的常用方法。L1正則化和L2正則化可以看作損失函數(shù)的懲罰項(xiàng)。L1正則化是指權(quán)值向量w中各個(gè)元素的絕對(duì)值之和。L2正則化是指權(quán)值向量w中各個(gè)元素的平方和然后再求平方根(可以看到Ridge 回歸的L2 正則化項(xiàng)有平方符號(hào))。L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇;L2正則化可以防止模型過擬合;一定程度上,L1正則化也可以防止過擬合。]
17.簡(jiǎn)述數(shù)據(jù)集的概念。
[數(shù)據(jù)是進(jìn)行機(jī)器學(xué)習(xí)的基礎(chǔ),所有數(shù)據(jù)的集合稱為數(shù)據(jù)集。數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。測(cè)試數(shù)據(jù)即為測(cè)試集,是需要應(yīng)用模型進(jìn)行預(yù)測(cè)的那部分?jǐn)?shù)據(jù),是機(jī)器學(xué)習(xí)所有工作的最終服務(wù)對(duì)象。為了防止訓(xùn)練出來的模型只對(duì)訓(xùn)練數(shù)據(jù)有效,一般將訓(xùn)練數(shù)據(jù)又分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用來訓(xùn)練模型,而驗(yàn)證集一般只用來驗(yàn)證模型的有效性,不參與模型訓(xùn)練。]
18.k均值算法采用了什么策略?簡(jiǎn)要描述其算法流程。
[k均值算法采用了貪心策略。其算法流程為:1. 輸入樣本集D、聚類簇?cái)?shù)k;2. 對(duì)均值向量進(jìn)行初始化(從D中隨機(jī)選擇k個(gè)樣本作為初始化均值向量);3. 依次對(duì)當(dāng)前簇劃分及均值向量迭代更新;4. 若迭代更新后聚類結(jié)果保持不變,則將當(dāng)前簇劃分結(jié)果返回。]
19.簡(jiǎn)述scikit-learn庫的通用學(xué)習(xí)模式。
[1)導(dǎo)入訓(xùn)練數(shù)據(jù);2)數(shù)據(jù)劃分;3)數(shù)據(jù)預(yù)處理;4)特征選擇;5)選擇機(jī)器學(xué)習(xí)方法訓(xùn)練得到模型。6)預(yù)測(cè)數(shù)據(jù);7)模型評(píng)估、驗(yàn)證、參數(shù)調(diào)優(yōu)。按此順序,或以關(guān)鍵部分展開陳述。]
20.簡(jiǎn)述numpy庫的功能。
[numpy是SciPy、Pandas等數(shù)據(jù)處理或科學(xué)計(jì)算庫的基礎(chǔ)。它提供了許多高級(jí)的數(shù)值編程工具,如:矩陣數(shù)據(jù)類型、矢量處理,以及精密的運(yùn)算庫,為進(jìn)行嚴(yán)格的數(shù)字處理而產(chǎn)生。numpy是開源的Python科學(xué)計(jì)算基礎(chǔ)庫,具有強(qiáng)大的N維數(shù)組對(duì)象ndarray、成熟的(廣播)函數(shù)庫、整合了C/C++/Fortran代碼的工具、實(shí)用的線性代數(shù)、傅里葉變換和隨機(jī)數(shù)生成函數(shù)、與稀疏矩陣運(yùn)算包scipy配合使用更加方便等特征。]
21.簡(jiǎn)述準(zhǔn)確率、精確率與召回率的概念。
[準(zhǔn)確率(Accuracy)是最為常見的一項(xiàng)指標(biāo),即預(yù)測(cè)正確的結(jié)果占總樣本的百分比;精確率(Precision)又稱查準(zhǔn)率,是針對(duì)預(yù)測(cè)結(jié)果而言的,表示在所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率。召回率(Recall)又叫查全率,是針對(duì)原樣本而言的,表示在所有實(shí)際為正類的樣本中被預(yù)測(cè)為正樣本的概率。]
22.簡(jiǎn)述回歸分析的主要過程。
[回歸分析可以簡(jiǎn)單理解為數(shù)據(jù)分析與預(yù)測(cè),通過對(duì)數(shù)據(jù)進(jìn)行分析實(shí)現(xiàn)預(yù)測(cè),也就是適當(dāng)擴(kuò)大已有自變量的取值范圍,并承認(rèn)該回歸方程在擴(kuò)大的定義域內(nèi)成立。一般來說,回歸分析的主要過程和步驟如下:(1)收集一組包含因變量和自變量的數(shù)據(jù);(2)根據(jù)因變量和自變量之間的關(guān)系,初步設(shè)定回歸模型;(3)求解合理的回歸系數(shù);(4)進(jìn)行相關(guān)性檢驗(yàn),確定相關(guān)系數(shù);(5)利用模型對(duì)因變量作出預(yù)測(cè)或解釋,并計(jì)算預(yù)測(cè)值的置信區(qū)間。]
23.簡(jiǎn)述有監(jiān)督學(xué)習(xí)中分類和回歸的區(qū)別。
[1)輸出不同。分類問題輸出的是物體所屬的類別,回歸問題輸出的是物體的值。分類問題輸出的值是定性的,回歸問題輸出的值是定量的。2)目的不同。分類的目的是為了尋找決策邊界,回歸的目的是為了找到最優(yōu)擬合。3)結(jié)果不同。分類的結(jié)果沒有逼近,對(duì)就是對(duì),錯(cuò)就是錯(cuò),回歸是對(duì)真實(shí)值的一種逼近預(yù)測(cè)。]
24.簡(jiǎn)述機(jī)器學(xué)習(xí)的開發(fā)流程。
[1)問題構(gòu)建;2)獲取數(shù)據(jù);3)準(zhǔn)備數(shù)據(jù)(數(shù)據(jù)清洗);4)特征工程;5)選擇并定義模型;6)訓(xùn)練模型;7)評(píng)估模型;8部署模型。按此順序,或以關(guān)鍵部分展開陳述。]
25.簡(jiǎn)要描述聚類的定義。
[聚類直觀上講是將相似的樣本聚在一起,形成一個(gè)類簇(或者說:將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集),試圖通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。]
26.什么是交叉驗(yàn)證法?
[交叉驗(yàn)證法先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集,每個(gè)子集都盡可能保持?jǐn)?shù)據(jù)分布的一致性,然后,每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下那個(gè)子集作為測(cè)試集,這樣就可獲得k組訓(xùn)練/測(cè)試集,從而可進(jìn)行k次訓(xùn)練和測(cè)試,最終返回k個(gè)測(cè)試結(jié)果的均值。交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于k的取值,通常把交叉驗(yàn)證法稱為k折交叉驗(yàn)證。k常取10。在劃分過程中存在多種方式,通常要隨機(jī)使用不同的劃分重復(fù)p次,最終評(píng)估結(jié)果取p次驗(yàn)證結(jié)果的均值。]
27.簡(jiǎn)述k-means算法的主要優(yōu)缺點(diǎn)及優(yōu)化方案。
[參考優(yōu)點(diǎn):經(jīng)典、簡(jiǎn)單、快速、對(duì)密集簇效果較好;缺點(diǎn):對(duì)K值敏感,且只適用于能求距離均值的應(yīng)用,不適合非凸簇或大小差別很大的簇;改進(jìn):二分k-means,k-means++…。]
28.簡(jiǎn)述matplotlib庫的功能。
[matplotlib是Python優(yōu)秀的數(shù)據(jù)可視化第三方庫,是非常強(qiáng)大的Python畫圖工具。它可以以各種硬拷貝格式和跨平臺(tái)的交互式環(huán)境生成出版質(zhì)量級(jí)別的圖形,能繪制線圖、散點(diǎn)圖、等高線圖、條形圖、柱狀圖、3D 圖形、甚至是圖形動(dòng)畫等等。]
29.簡(jiǎn)述SciPy的主要功能。
[Scipy是一款用于數(shù)學(xué)、科學(xué)和工程領(lǐng)域的Python工具包,可以處理插值、積分、優(yōu)化、圖像處理、常微分方程數(shù)值解的求解、信號(hào)處理等問題。]
30.簡(jiǎn)述無監(jiān)督學(xué)習(xí)的概念及其典型任務(wù)。
[無監(jiān)督學(xué)習(xí)的數(shù)據(jù)中沒有作為答案的目標(biāo)變量,即無監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)沒有標(biāo)簽,它自動(dòng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識(shí),建立模型。數(shù)據(jù)并不被特別標(biāo)識(shí),計(jì)算機(jī)自行學(xué)習(xí)分析數(shù)據(jù)內(nèi)部的規(guī)律、特征等,進(jìn)而得出一定的結(jié)果(如內(nèi)部結(jié)構(gòu)、主要成分等)。其典型任務(wù)包括:聚類、降維。]
31.簡(jiǎn)述Anaconda的功能。
[Anaconda是一個(gè)開源的Python發(fā)行版本,其包含了conda、Python等800多個(gè)科學(xué)包及其依賴項(xiàng)。它具有:開源免費(fèi)、內(nèi)置近800個(gè)第三方庫、包含多個(gè)主流工具、適合數(shù)據(jù)計(jì)算領(lǐng)域開發(fā)、支持多操作系統(tǒng)平臺(tái)等特征。]
32.簡(jiǎn)述機(jī)器學(xué)習(xí)與人腦學(xué)習(xí)的異同。
[人類在成長、生活過程中積累了很多的歷史與經(jīng)驗(yàn)。人類定期地對(duì)這些經(jīng)驗(yàn)進(jìn)行“歸納”,獲得了生活的“規(guī)律”。當(dāng)人類遇到未知的問題或者需要對(duì)未來進(jìn)行“推測(cè)”的時(shí)候,人類使用這些“規(guī)律”,對(duì)未知問題與未來進(jìn)行“推測(cè)”,從而指導(dǎo)自己的生活和工作。機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測(cè)”過程可以對(duì)應(yīng)到人類的“歸納”和“推測(cè)”過程。通過這樣的對(duì)應(yīng),發(fā)現(xiàn)機(jī)器學(xué)習(xí)的思想并不復(fù)雜,僅僅是對(duì)人類在生活中學(xué)習(xí)成長的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果,因此它的處理過程不是因果的邏輯,而是通過歸納思想得出的相關(guān)性結(jié)論。人腦:總結(jié)經(jīng)驗(yàn)、發(fā)現(xiàn)規(guī)律、預(yù)測(cè)未來;機(jī)器學(xué)習(xí):訓(xùn)練數(shù)據(jù)、建立模型、預(yù)測(cè)未知屬性。]
33.簡(jiǎn)述生成式模型和判別式模型的異同。
[根據(jù)機(jī)器學(xué)習(xí)模型是否可用于生成新數(shù)據(jù),可以將機(jī)器學(xué)習(xí)模型分為生成模型和判別模型。生成模型是指通過機(jī)器學(xué)習(xí)算法,從訓(xùn)練集中學(xué)習(xí)到輸入和輸出的聯(lián)合概率分布??(??]
34.什么是線性回歸?
[1.給定由d個(gè)屬性描述的示例x,其中xi是x在第i個(gè)屬性上的取值,線性模型試圖學(xué)得一個(gè)通過屬性的線性組合來進(jìn)行預(yù)測(cè)的函數(shù)。2.給定數(shù)據(jù)集D,“線性回歸”試圖學(xué)得一個(gè)線性模型以盡可能準(zhǔn)確的預(yù)測(cè)實(shí)值輸出標(biāo)記。3.線性回歸試圖學(xué)得f(xi)=wxi+b,使得f(xi)≈yi。利用最小二乘法,使得均方誤差最小化,進(jìn)而求得w和b的最優(yōu)解。]
35.簡(jiǎn)述分類和聚類的主要特點(diǎn)。
[分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。數(shù)據(jù)分類也被稱為有監(jiān)督學(xué)習(xí),用來訓(xùn)練分類模型的數(shù)據(jù)需要有已標(biāo)注的標(biāo)簽,包括學(xué)習(xí)階段(構(gòu)建分類模型)和分類階段(使用模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)號(hào))兩個(gè)階段。將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異。聚類不需要有事先標(biāo)注的標(biāo)簽。]
36.簡(jiǎn)述機(jī)器學(xué)習(xí)的分類。
[按照功能分類,機(jī)器學(xué)習(xí)的功能大致可分為:回歸、分類和聚類;按照學(xué)習(xí)方式分類,機(jī)器學(xué)習(xí)的學(xué)習(xí)方式大體分為三類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。]
37.什么是k近鄰學(xué)習(xí)?
[k近鄰學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法,其工作機(jī)制為:給定測(cè)試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)鄰居的信息來進(jìn)行預(yù)測(cè)。通常在分類任務(wù)中可使用“投票法”,即選擇這k個(gè)樣本中出現(xiàn)最多的類別標(biāo)記作為預(yù)測(cè)結(jié)果;在回歸任務(wù)中可使用平均法,即將這k個(gè)樣本的實(shí)值輸出標(biāo)記的平均值作為預(yù)測(cè)結(jié)果;還可基于距離遠(yuǎn)近進(jìn)行加權(quán)平均或者加權(quán)投票,距離越近的樣本權(quán)重越大。]
總結(jié)
- 上一篇: C++学习(10)
- 下一篇: 使用webpack配置react并添加到