商汤科技-数据运维工程师-提前批笔试题目汇总
2019年8月19日
問答題1:缺失值數(shù)據(jù)預(yù)處理有哪些方法?https://juejin.im/post/5b5c4e6c6fb9a04f90791e0c
處理缺失值的方法如下:刪除記錄,數(shù)據(jù)填補(bǔ)和不處理。主要以數(shù)據(jù)填補(bǔ)為主。
1 刪除記錄:該種方法在樣本數(shù)據(jù)量十分大且確實(shí)值不多的情況下非常有效。
2 數(shù)據(jù)填補(bǔ):插補(bǔ)大體有替換缺失值,擬合缺失值,虛擬變量等操作。替換是通過數(shù)據(jù)中非缺失數(shù)據(jù)的相似性來填補(bǔ),其中的核心思想是發(fā)現(xiàn)相同群體的共同特征,擬合是通過其他特征建模來填補(bǔ),虛擬變量是衍生的新變量代替缺失值。
替換缺失值:
1 定類數(shù)據(jù):眾數(shù)填補(bǔ)
2定量(定比)數(shù)據(jù): 平均數(shù)或中位數(shù)填補(bǔ)
3 熱卡填補(bǔ): 熱卡填充法是在完整數(shù)據(jù)中找到一個(gè)與它最相似的對象,然后用這個(gè)相似對象的值來進(jìn)行填充。
4 k最近距離鄰法(k-means cluster)
通過無監(jiān)督機(jī)器學(xué)習(xí)的k均值聚類的方法將所有樣本進(jìn)行聚類劃分,然后在通過劃分的種類的均值對各自類中的缺失值進(jìn)行填補(bǔ)。本質(zhì)是通過找相似來填補(bǔ)缺失值。
擬合缺失值
如果缺失的變量跟其他特征變量相關(guān),則通過建模預(yù)測的缺失值就有意義,反之則不用
回歸預(yù)測:
基于完整的數(shù)據(jù)集,建立回歸方程。對于有缺失值的特征值,將已知的特征值代入模型來估計(jì)未知特征值,一次估計(jì)值來進(jìn)行填充。(該方法適合缺失值是連續(xù)的,即定量的類型,才可以使用回歸來預(yù)測。)
極大似然估計(jì):
在隨機(jī)類型為隨機(jī)缺失的條件下,假設(shè)模型對于完整的樣本是正確的,那么通過觀測數(shù)據(jù)的邊際分布可以對未知參數(shù)進(jìn)行極大似然估計(jì)。(該方法適合大樣本)
多重插補(bǔ):
多重插補(bǔ)的思想來源于貝葉斯估計(jì),認(rèn)為待插補(bǔ)的值是隨機(jī)的,它的值來自于已觀測到的值。具體實(shí)踐上通常是估計(jì)出待插補(bǔ)的值,然后再加上不同的額噪聲,形成多組可選插補(bǔ)值。根據(jù)某種選擇依據(jù),選取最合適的插補(bǔ)值。
根據(jù)數(shù)據(jù)缺失機(jī)制、模式以及變量類型,可分別采用回歸、預(yù)測均數(shù)匹配( predictive mean matching, PMM )、趨勢得分( propensity score, PS )、Logistic回歸、判別分析以及馬爾可夫鏈蒙特卡羅( Markov Chain Monte Carlo, MCMC) 等不同的方法進(jìn)行填補(bǔ)。
注:使用多重插補(bǔ)要求數(shù)據(jù)缺失值為隨機(jī)性缺失,一般重復(fù)次數(shù)20-50次精準(zhǔn)度很高,但是計(jì)算也很復(fù)雜,需要大量計(jì)算。
隨機(jī)森林:
虛擬變量
虛擬變量其實(shí)就是缺失值的一種衍生變量,。具體做法是通過判斷特征值是否有缺失值來定義一個(gè)新的二分類變量。
不處理
在希望保持原始信息不發(fā)生變化的前提下對信息系統(tǒng)進(jìn)行處理
問答題2中心極限定理是什么?他的應(yīng)用方向是:
中心極限定理就是研究隨機(jī)變量和的極限分布在什么條件下為正態(tài)分布的問題。
(1)獨(dú)立同分布的中心極限定理[林德伯格-列維(Lindburg-Levy)定理]
應(yīng)用一:求隨機(jī)變量之和Sn落在某區(qū)間的概率。
應(yīng)用二:已知隨機(jī)變量之和Sn取值的概率,求隨機(jī)變量的個(gè)數(shù)n。
(2)棣莫佛-拉普拉斯(de Movire - Laplace)定理
應(yīng)用一:近似計(jì)算服從二項(xiàng)分布的隨機(jī)變量在某范圍內(nèi)取值的概率
應(yīng)用二:已知服從二項(xiàng)分布的隨機(jī)變量在某范圍內(nèi)取值的概率,估計(jì)該范圍(或該范圍的最大值)。
應(yīng)用三:與用頻率估計(jì)概率有關(guān)的二項(xiàng)分布的近似計(jì)算
(3)李雅普諾夫定理
問答題3:
1 對于外層職工關(guān)系 A 中的每一個(gè)記錄,都要對內(nèi)層職工關(guān)系B進(jìn)行檢索,所有效率不高
2.(1)使用臨時(shí)表
SELECT MAX(月工資) as 最高工資,部門號 INTO temp FROM 職工
GROUP BY 部門號;
SELECT 職工號 FROM 職工,temp WHERE 月工資=最高工資
AND 職工.部門號 = temp.部門號;
(2) SELECT 職工號 FROM 職工,(SELECT MAX(月工資) as 最高工資,部門號 FROM 職工 GROUP BY 部門號) as DEPMAX
WHERE 月工資=最高工資 AND 職工.部門號 = DEPMAX. 部門號;
SQL經(jīng)典5道
https://cloud.tencent.com/developer/article/1062773
總結(jié)
以上是生活随笔為你收集整理的商汤科技-数据运维工程师-提前批笔试题目汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 海马体what where记忆推理模型
- 下一篇: 论文浅尝 | Complex Embed