往年笔试题
文章目錄
- 1 概率
- 1.1 條件概率
- .每天9點(diǎn)到10點(diǎn),小明和小紅在同一個(gè)車站乘坐公交車上班。小明坐101路公交車,每5分鐘一班{9:00, 9:05, 9:10, …};小紅坐102路公交車,每10分鐘一班{9:00, 9:10, 9:20, …},問小明和小紅每天相遇的概率是多少?
- 小明和小紅結(jié)對編程完成了一個(gè)項(xiàng)目。在整個(gè)項(xiàng)目中,他們貢獻(xiàn)的代碼比例是3:5。據(jù)往常的統(tǒng)計(jì),小明的bug率為10‰ ,小紅的bug率為15‰ 。今天小猿在項(xiàng)目中發(fā)現(xiàn)了一個(gè)bug,那么該bug是小明編寫的概率為多少?
- 小明來猿輔導(dǎo)參加現(xiàn)場面試,他選擇地鐵、騎自行車、騎電動車三種交通工具方式的概率分別為0.3,0.2,0.5,從各個(gè)交通工具遲到的概率分別為0.3,0.1,0.15。下列說法正確的是()
- 1.2 排列組合得概率
- 有5本不同的書,其中語文書2本,數(shù)學(xué)書2本,英語書1本,將它們隨機(jī)地?cái)[放到書架上,則同一科目的書都不相鄰的概率為()
- 有6塊完全相同的瓷磚(大小為1*2),用它們鋪滿2*6的地面,一共有()種不同的鋪法。
- 2 樹
- 1.按照二叉樹的定義,不考慮節(jié)點(diǎn)值,僅考慮樹結(jié)構(gòu)情況下,4個(gè)節(jié)點(diǎn)的二叉樹有多少種?
- 3.深度學(xué)習(xí)
- 3.1 訓(xùn)練
- 在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),損失函數(shù)下降得很慢,下列說法中不可能的是()
- 處理過擬合
- 4. 機(jī)器學(xué)習(xí)
- 4.1 adaboost 和隨機(jī)森林
- 4.2 HMM和CRF
- 4.3 SVM和LR
1 概率
1.1 條件概率
.每天9點(diǎn)到10點(diǎn),小明和小紅在同一個(gè)車站乘坐公交車上班。小明坐101路公交車,每5分鐘一班{9:00, 9:05, 9:10, …};小紅坐102路公交車,每10分鐘一班{9:00, 9:10, 9:20, …},問小明和小紅每天相遇的概率是多少?
1.((1/12 * 1/12)+(1/12 * 1/6))6。兩個(gè)人做的不是同一個(gè)車,小紅分為6段的話,小紅段時(shí)間初始到可以偶遇小明兩車次
2.
假設(shè)兩人到達(dá)站臺的時(shí)間在9-10點(diǎn)之間均勻分布。
P(相遇) = 1-P(不相遇)
= 1- P(小明到的時(shí)候小紅已經(jīng)走了) - P(小紅到的時(shí)候小明已經(jīng)走了)
= 1- [P(小紅9:10走,小明9:10后到)+P(小紅9:20走,小明9:20后到)+…+P(小紅9:50走,小明9:50后到)] - [P(小明9:05走,小紅9:05后到)+P(小明9:10走,小紅9:10后到)+…+P(小明9:15走,小紅9:15后到)]
= 1-[1/65/6+1/64/6+…+1/61/6] - [1/1211/12+1/1210/12+…+1/12*1/12]
= 1-10/24-11/24
=1/8
小明和小紅結(jié)對編程完成了一個(gè)項(xiàng)目。在整個(gè)項(xiàng)目中,他們貢獻(xiàn)的代碼比例是3:5。據(jù)往常的統(tǒng)計(jì),小明的bug率為10‰ ,小紅的bug率為15‰ 。今天小猿在項(xiàng)目中發(fā)現(xiàn)了一個(gè)bug,那么該bug是小明編寫的概率為多少?
小明來猿輔導(dǎo)參加現(xiàn)場面試,他選擇地鐵、騎自行車、騎電動車三種交通工具方式的概率分別為0.3,0.2,0.5,從各個(gè)交通工具遲到的概率分別為0.3,0.1,0.15。下列說法正確的是()
不可估計(jì)
準(zhǔn)時(shí)到,則騎電動車得概率大于0.5
1.2 排列組合得概率
有5本不同的書,其中語文書2本,數(shù)學(xué)書2本,英語書1本,將它們隨機(jī)地?cái)[放到書架上,則同一科目的書都不相鄰的概率為()
英語書最后放 語文數(shù)學(xué)有兩種大方式
ABab 這時(shí)英語書有五種方式 2×2×2×5
ABbA 這時(shí)英語書只能放在Bb中間 2×2×2
最后(2×2×2×5+2×2×2)/A(5,5)=2/5
有6塊完全相同的瓷磚(大小為12),用它們鋪滿26的地面,一共有()種不同的鋪法。
13種
全橫1種,四個(gè)橫的5種,兩個(gè)橫的6種,全豎1種。
現(xiàn)有28 的區(qū)域可以擺放俄羅斯方塊。共有8個(gè)21的方塊需要擺放在該區(qū)域中。求共有多少種擺放方式?
15(4個(gè)橫的)+7(2個(gè)橫的)+6(6個(gè)橫的)+2=30
2 樹
1.按照二叉樹的定義,不考慮節(jié)點(diǎn)值,僅考慮樹結(jié)構(gòu)情況下,4個(gè)節(jié)點(diǎn)的二叉樹有多少種?
(2n)!/(n!*(n+1)!)=14
3.深度學(xué)習(xí)
3.1 訓(xùn)練
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),損失函數(shù)下降得很慢,下列說法中不可能的是()
學(xué)習(xí)率太低
正則參數(shù)太高
陷入局部最小值
訓(xùn)練數(shù)據(jù)太少
處理過擬合
增加訓(xùn)練數(shù)據(jù)。
使用數(shù)據(jù)擴(kuò)增技術(shù)(data augmentation)。
降低模型的復(fù)雜度。
歸一化訓(xùn)練數(shù)據(jù),使數(shù)據(jù)更加統(tǒng)一。
https://zhuanlan.zhihu.com/p/27627299/
歸一化得目的:容易收斂?
4. 機(jī)器學(xué)習(xí)
4.1 adaboost 和隨機(jī)森林
和Adaboost相比,隨機(jī)森林對異常值更魯棒。
Adaboost初始時(shí)每個(gè)訓(xùn)練元組被賦予相等的權(quán)重。
組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成。
GBDT是通過減少模型方差提高性能,隨機(jī)森林是通過減少模型偏差提高性能。
-
隨機(jī)森林采用的bagging思想,而GBDT采用的boosting思想。這兩種方法都是Bootstrap思想的應(yīng)用,Bootstrap是一種有放回的抽樣方法思想。雖然都是有放回的抽樣,但二者的區(qū)別在于:Bagging采用有放回的均勻取樣,而Boosting根據(jù)錯(cuò)誤率來取樣(Boosting初始化時(shí)對每一個(gè)訓(xùn)練樣例賦相等的權(quán)重1/n,然后用該算法對訓(xùn)練集訓(xùn)練t輪,每次訓(xùn)練后,對訓(xùn)練失敗的樣例賦以較大的權(quán)重),因此Boosting的分類精度要優(yōu)于Bagging。Bagging的訓(xùn)練集的選擇是隨機(jī)的,各訓(xùn)練集之間相互獨(dú)立,弱分類器可并行,而Boosting的訓(xùn)練集的選擇與前一輪的學(xué)習(xí)結(jié)果有關(guān),是串行的。
-
組成隨機(jī)森林的樹可以是分類樹,也可以是回歸樹;而GBDT只能由回歸樹組成。 組成隨機(jī)森林的樹可以并行生成;而GBDT只能是串行生成。
-
對于最終的輸出結(jié)果而言,隨機(jī)森林采用多數(shù)投票等;而GBDT則是將所有結(jié)果累加起來,或者加權(quán)累加起來。
-
隨機(jī)森林對異常值不敏感;GBDT對異常值非常敏感。 隨機(jī)森林對訓(xùn)練集一視同仁;GBDT是基于權(quán)值的弱分類器的集成。 隨機(jī)森林是通過減少
-
模型方差提高性能;GBDT是通過減少模型偏差提高性能。
4.2 HMM和CRF
在HMM模型中,如果已知觀察序列和狀態(tài)序列,可以使用極大似然估計(jì)算法進(jìn)行參數(shù)估計(jì)。
https://www.zhihu.com/question/35866596
區(qū)別:
https://zhuanlan.zhihu.com/p/31187060
1.HMM是生成模型,CRF是判別模型
2.HMM是概率有向圖,CRF是概率無向圖
3.HMM求解過程可能是局部最優(yōu),CRF可以全局最優(yōu)
4.CRF概率歸一化較合理,HMM則會導(dǎo)致label bias 問題
HMM 與 CRF的區(qū)別:https://blog.csdn.net/losteng/article/details/51037927
以下錯(cuò)誤:
CRF模型是局部最優(yōu),而HMM模型是全局最優(yōu)。
cuod
CRF模型和HMM模型都是生成式模型。
4.3 SVM和LR
LR和SVM的異同:https://www.cnblogs.com/zhizhan/p/5038747.html
LR可以給出每個(gè)點(diǎn)屬于每一類的概率,而SVM是非概率的。
相同:
- 都是分類模型,本質(zhì)都是在找最佳分類超平面;
- 都是判別式模型,判別式模型不關(guān)系數(shù)據(jù)是怎么生成的,只關(guān)心數(shù)據(jù)之間的差別,然后用差別來簡單對給定的一個(gè)數(shù)據(jù)進(jìn)行分類;
- 都是監(jiān)督學(xué)習(xí)算法;
- 都可以增加不同的正則項(xiàng)。
異同: - LR 是一個(gè)統(tǒng)計(jì)的方法,SVM 是一個(gè)幾何的方法;
- SVM 的處理方法是只考慮 Support Vectors,也就是和分類最相關(guān)的少數(shù)點(diǎn)去學(xué)習(xí)分類器。而邏輯回歸通過非線性映射減小了離分類平面較遠(yuǎn)的點(diǎn)的權(quán)重,相對提升了與分類最相關(guān)的數(shù)據(jù)點(diǎn)的權(quán)重;
- 損失函數(shù)不同:LR 的損失函數(shù)是交叉熵,SVM 的損失函數(shù)是 HingeLoss,這兩個(gè)損失函數(shù)的目的都是增加對分類影響較大的數(shù)據(jù)點(diǎn)的權(quán)重,減少與分類關(guān)系較小的數(shù)據(jù)點(diǎn)的權(quán)重。對 HingeLoss 來說,其零區(qū)域?qū)?yīng)的正是非支持向量的普通樣本,從而所有的普通樣本都不參與最終超平面的決定,這是支持向量機(jī)最大的優(yōu)勢所在,對訓(xùn)練樣本數(shù)目的依賴大減少,而且提高了訓(xùn)練效率;
- LR 是參數(shù)模型,SVM 是非參數(shù)模型,參數(shù)模型的前提是假設(shè)數(shù)據(jù)服從某一分布,該分布由一些參數(shù)確定(比如正太分布由均值和方差確定),在此基礎(chǔ)上構(gòu)建的模型稱為參數(shù)模型;非參數(shù)模型對于總體的分布不做任何假設(shè),只是知道總體是一個(gè)隨機(jī)變量,其分布是存在的(分布中也可能存在參數(shù)),但是無法知道其分布的形式,更不知道分布的相關(guān)參數(shù),只有在給定一些樣本的條件下,能夠依據(jù)非參數(shù)統(tǒng)計(jì)的方法進(jìn)行推斷。所以 LR 受數(shù)據(jù)分布影響,尤其是樣本不均衡時(shí)影響很大,需要先做平衡,而 SVM 不直接依賴于分布;
- LR 可以產(chǎn)生概率,SVM 不能;
- LR 不依賴樣本之間的距離,SVM 是基于距離的;
- LR 相對來說模型更簡單好理解,特別是大規(guī)模線性分類時(shí)并行計(jì)算比較方便。而 SVM 的理解和優(yōu)化相對來說復(fù)雜一些,SVM 轉(zhuǎn)化為對偶問題后,分類只需要計(jì)算與少數(shù)幾個(gè)支持向量的距離,這個(gè)在進(jìn)行復(fù)雜核函數(shù)計(jì)算時(shí)優(yōu)勢很明顯,能夠大大簡化模型和計(jì)算;
- SVM 的損失函數(shù)自帶正則(損失函數(shù)中的 1/2||w||^2),而 LR 需要另外添加正則項(xiàng)。
SVM的目標(biāo)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,邏輯回歸目標(biāo)函數(shù)是最小化后驗(yàn)概率。
SVM中當(dāng)參數(shù)C越小時(shí),分類間隔越大,分類錯(cuò)誤越多,趨于欠學(xué)習(xí)。
SVM的分類間隔為,||w||代表向量的模。
與SVM相比, LR對異常數(shù)據(jù)更加敏感。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
- 上一篇: 基于深度学习的IRS辅助MIMO通信系统
- 下一篇: Docker:Redis启动命令