當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

BAT机器学习面试1000题系列（第1~10题）

發布時間：2024/1/23 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 BAT机器学习面试1000题系列（第1~10题）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.請簡要介紹下SVM

SVM，全稱是support vector machine，中文名叫支持向量機。SVM是一個面向數據的分類算法，它的目標是為確定一個分類超平面，從而將不同的數據分隔開。

參考：http://blog.csdn.net/qq_36330643/article/details/77574587

2.請簡要介紹下tensorflow的計算圖 ??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

Tensorflow是一個通過計算圖的形式來表述計算的編程系統，計算圖也叫數據流圖，可以把計算圖看做是一種有向圖，Tensorflow中的每一個計算都是計算圖上的一個節點，而節點之間的邊描述了計算之間的依賴關系。

3.請問GBDT和XGBoost的區別是什么？

xgboost類似于gbdt的優化版，不論是精度還是效率上都有了提升。與gbdt相比，具體的優點有：
1.損失函數是用泰勒展式二項逼近，而不是像gbdt里的就是一階導數；
2.對樹的結構進行了正則化約束，防止模型過度復雜，降低了過擬合的可能性；
3.節點分裂的方式不同，gbdt是用的gini系數，xgboost是經過優化推導后的；
更多詳見：https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/

4.在k-means或kNN，我們是用歐氏距離來計算最近的鄰居之間的距離。為什么不用曼哈頓距離？

曼哈頓距離只計算水平或垂直距離，有維度的限制。另一方面，歐氏距離可用于任何空間的距離計算問題。因為，數據點可以存在于任何空間，歐氏距離是更可行的選擇。例如：想象一下國際象棋棋盤，象或車所做的移動是由曼哈頓距離計算的，因為它們是在各自的水平和垂直方向做的運動。

5.百度2015校招機器學習筆試題

百度2015校招機器學習筆試題
http://www.itmian4.com/thread-7042-1-1.html

6.簡單說說特征工程

7.關于LR

把LR從頭到腳都給講一遍。建模，現場數學推導，每種解法的原理，正則化，LR和maxent模型啥關系，lr為啥比線性回歸好。有不少會背答案的人，問邏輯細節就糊涂了。原理都會? 那就問工程，并行化怎么做，有幾種并行化方式，讀過哪些開源的實現。還會，那就準備收了吧，順便逼問LR模型發展歷史。

另外，關于答案這篇文章可以做參考：

http://blog.csdn.net/cyh_24/article/details/50359055.html

http://blog.csdn.net/zouxy09/article/details/20319673

8.overfitting怎么解決

dropout、regularization、batch normalizatin

9.LR和SVM的聯系與區別

????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

1、LR和SVM都可以處理分類問題，且一般都用于處理線性二分類問題（在改進的情況下可以處理多分類問題）?
2、兩個方法都可以增加不同的正則化項，如l1、l2等等。所以在很多實驗中，兩種算法的結果是很接近的。?
區別：?
1、LR是參數模型，SVM是非參數模型。?
2、從目標函數來看，區別在于邏輯回歸采用的是logistical loss，SVM采用的是hinge loss.這兩個損失函數的目的都是增加對分類影響較大的數據點的權重，減少與分類關系較小的數據點的權重。?
3、SVM的處理方法是只考慮support vectors，也就是和分類最相關的少數點，去學習分類器。而邏輯回歸通過非線性映射，大大減小了離分類平面較遠的點的權重，相對提升了與分類最相關的數據點的權重。?
4、邏輯回歸相對來說模型更簡單，好理解，特別是大規模線性分類時比較方便。而SVM的理解和優化相對來說復雜一些，SVM轉化為對偶問題后,分類只需要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優勢很明顯,能夠大大簡化模型和計算。?
5、logic 能做的 svm能做，但可能在準確率上有問題，svm能做的logic有的做不了。
來源：http://blog.csdn.net/timcompp/article/details/62237986

10.LR與線性回歸的區別與聯系

個人感覺邏輯回歸和線性回歸首先都是廣義的線性回歸，

其次經典線性模型的優化目標函數是最小二乘，而邏輯回歸則是似然函數，

另外線性回歸在整個實數域范圍內進行預測，敏感度一致，而分類范圍，需要在[0,1]。邏輯回歸就是一種減小預測范圍，將預測值限定為[0,1]間的一種回歸模型，因而對于這類問題來說，邏輯回歸的魯棒性比線性回歸的要好。

邏輯回歸的模型本質上是一個線性回歸模型，邏輯回歸都是以線性回歸為理論支持的。但線性回歸模型無法做到sigmoid的非線性形式，sigmoid可以輕松處理0/1分類問題。

總結

以上是生活随笔為你收集整理的BAT机器学习面试1000题系列（第1~10题）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：彻底理解Python中的yield
下一篇： kaggle入门-Bike Sharin