當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

机器学习与算法面试太难？

發(fā)布時(shí)間：2023/11/27 生活经验 35 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习与算法面试太难？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)與算法面試太難？

來源：
https://mp.weixin.qq.com/s/GrkCvU2Ia_mEaQmiffLotQ
作者：石曉文

八月參加了一些提前批的面試，包括阿里、百度、頭條、貝殼、一點(diǎn)資訊等。整理了一些面試題，分享給大家。

一、機(jī)器學(xué)習(xí)基礎(chǔ)題

1、LSTM的公式

2、RNN為什么出現(xiàn)梯度消失及BPTT的推導(dǎo)

3、DQN的基本原理么

4、GBDT和隨機(jī)森林有什么區(qū)別

5、GBDT的原理，如何做分類和回歸

6、隨機(jī)森林的隨機(jī)體現(xiàn)在哪方面

7、Wide &Deep的原理

8、GBDT+LR是怎么做的?

9、DQN模型為什么要做經(jīng)驗(yàn)回放

10、數(shù)據(jù)之間如果不是獨(dú)立同分布的會怎樣

11、AUC的原理介紹一下

12、XGBOOst和GBDT的區(qū)別。

13、強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別

14、神經(jīng)網(wǎng)絡(luò)里面的損失函數(shù)有哪些

15、機(jī)器學(xué)習(xí)中常見的激活函數(shù)有哪些？為什么通常需要零均值？

16、DeepFM介紹

17、FM推導(dǎo)

18、boosting和bagging的區(qū)別？

19、bagging為什么能減小方差？

20、交叉熵?fù)p失函數(shù)，0-1分類的交叉熵?fù)p失函數(shù)的形式。什么是凸函數(shù)？0-1分類如果用平方損失為什么用交叉熵而不是平方損失？

21、L1和L2有什么區(qū)別，從數(shù)學(xué)角度解釋L2為什么能提升模型的泛化能力。

22、深度學(xué)習(xí)中，L2和dropout有哪些區(qū)別？

23、L1正則化有哪些好處

24、如果有一萬個(gè)地理坐標(biāo)，轉(zhuǎn)換成1-10000的數(shù)，可以用決策樹么？

25、CART分類樹和ID3以及C4.5有什么區(qū)別？

26、樹集成模型有哪幾種實(shí)現(xiàn)方式：Bagging和Boosting，回答過程中又問到了很多細(xì)節(jié)。隨即森林的隨機(jī)體現(xiàn)在哪些方面，AdaBoost是如何改變樣本權(quán)重，GBDT分類樹擬合的是什么？

27、Dueling DQN和DQN有什么區(qū)別

28、early stop對參數(shù)有什么影響？

二、數(shù)據(jù)結(jié)構(gòu)算法題

1、K個(gè)有序數(shù)組，找一個(gè)長度最小的區(qū)間，在這個(gè)區(qū)間里至少包含每個(gè)數(shù)組各一個(gè)數(shù)

2、n個(gè)[0,n)的數(shù)，求每個(gè)數(shù)的出現(xiàn)次數(shù)（不能開辟額外空間）

3、數(shù)組的全排列（空間復(fù)雜度O（1））

4、一堆鈔票，盡可能均分（利用背包問題的思想）

5、無向無環(huán)圖中，最短路徑的最大值（Floyd算法)

6、層次遍歷二叉樹

7、字符串的最長公共子序列（動態(tài)規(guī)劃）

8、樹的前序遍歷和zigzag遍歷（非遞歸）

9、一個(gè)數(shù)組，所有數(shù)組都出現(xiàn)了兩次，只有一個(gè)數(shù)出現(xiàn)了一次，返回這個(gè)數(shù)（位運(yùn)算）

10、一個(gè)數(shù)組，一個(gè)數(shù)出現(xiàn)了超過一半次數(shù)，返回這個(gè)數(shù)

11、將除法的結(jié)果用字符串返回，如果能夠除盡，則返回相除的結(jié)果，如果不能除盡，則無限循環(huán)部分用[]標(biāo)記。

12、數(shù)組排序，假設(shè)數(shù)組排序后的位次和排序前的位次絕對值差值小于K，有什么比快排好的算法？

13、樹中兩個(gè)節(jié)點(diǎn)的第一個(gè)的公共祖先。

14、判斷是否是回文鏈表

15、判斷兩個(gè)鏈表中是否有相同節(jié)點(diǎn)

三、實(shí)踐題

1、如果你想往模型中加入一個(gè)特征，如何判定這個(gè)特征是否有效？

2、LR和FM的區(qū)別？FM需要進(jìn)行交叉特征的選擇么？如果在LR選了一部分特征做交叉之后，取得了比FM更好的效果，這是為什么？如果FM變成DeepFM之后，效果超過了LR，這又是為什么？

3、如果邏輯回歸的所有樣本的都是正樣本，那么它學(xué)出來的超平面是怎樣的？

4、哪些場景下的分類問題不適用于交叉熵?fù)p失函數(shù)？

5、推薦系統(tǒng)中你認(rèn)為最重要的環(huán)節(jié)是什么？

6、多臂tiger machine中，有許多方法，比如e-greedy，timponson采樣，UCB，這些方法都有哪些適用場景？

7、如何預(yù)測一家店分品類的銷量

8、信息流采樣，有n份數(shù)據(jù)，但是n的長度并不知道，設(shè)計(jì)一個(gè)采樣算法，使得每份被選擇的概率是相同的。

9、模型在線下評估和線上使用時(shí)，往往出現(xiàn)線上實(shí)際效果不如線下效果的情況，請分析可能的原因。

10、在CTR預(yù)估問題中，假設(shè)訓(xùn)練數(shù)據(jù)的正負(fù)樣本數(shù)為1:4，測試數(shù)據(jù)中的正負(fù)樣本數(shù)也為1:4，那么此時(shí)模型對測試集，學(xué)到的平均點(diǎn)擊率為1/（1+4）,假設(shè)此時(shí)采取了欠采樣策略，使正負(fù)樣本數(shù)為1:1，對同樣的測試集進(jìn)行預(yù)測，平均點(diǎn)擊率應(yīng)該是多少？（樣本量很大，初始總樣本數(shù)為10億）

轉(zhuǎn)載于:https://www.cnblogs.com/DicksonJYL/p/9596062.html

總結(jié)

以上是生活随笔為你收集整理的机器学习与算法面试太难？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。