面试题小结 (数据分析)
生活随笔
收集整理的這篇文章主要介紹了
面试题小结 (数据分析)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一.SQL
大部分考點圍繞join連接,聚合函數,窗口函數,列轉換進行命題
1.join連接
- 重點掌握left join和inner join
- 這是數據分析師使用率最高的兩個語法,一般筆試題,掌握這兩個語法就可以輕松應對所有join
- 如果結果需要去重處理,我們可以通過group by或者distinct進行去重
2.聚合函數
- 考察應聘者對分組的理解及聚合函數的掌握情況
- group by語句通常會和聚合函數一起使用,按照一個或者多個列對結果進行分組,然后對每個組執行聚合操作
- having子句允許用戶通過一個簡單的語法完成原本需要通過子查詢才能對group by語句產生的分組進行條件過濾的任務
3.窗口函數
- 可以對數據庫函數進行實時分析處理
- 基本語法如下:
- 窗口函數位置,可以放以下兩種函數:
- 專用窗口函數,包括rank,dense_rank,row_number
- 聚合函數:sum,avg,count,max,min
4.行轉列
- lateral view用于和UDTF函數(explode,split)結合來使用
- 首先通過UDTF函數將數據拆分成多行,再將多行結果組合成一個支持別名的虛擬表
- 主要解決在select使用UDTF做查詢的過程中查詢只能包含單個UDTF,不能包含其它字段以及多個UDTF的情況
5.其它
- 字符串處理函數,round,ceiling,cast,date_format(),轉置函數pivot
二.概率
1.貝葉斯公式
- 重點熟記貝葉斯公式:P(B|A)=P(A|B)/P(A)
- 舉例:三門問題
2.隨機變量及分布
- 重點掌握正態分布,二項式分布,均勻分布等常見分布類型
- 方差與期望定義,性質
- 舉例:攜程客服1小時內接聽的電話數屬于什么分布
3.三大抽樣分布
- 卡方分布,F分布,T分布
- 舉例:結合應聘公司的業務背景,舉例說明這三大分布的應用場景,比如小樣本AB測試如何進行顯著性檢驗
4.參數估計
- 最大似然估計,無偏估計,區間估計
- 舉例:需重點掌握這些估計的定義及相關推導證明
5.假設檢驗
- 這是AB實驗非常核心的知識點
- 舉例:第一類錯誤和第二類錯誤的定義
6.回歸分析
- 舉例:一元線性回歸的主要前提假設是什么
7.其它
- 相關性檢驗,峰度,偏度,統計量,組合概率
- 重點掌握這些知識點的定義和性質
- 舉例:person,Kendall,spearman三中相關分析方法的異同
- p值的正確理解:原假設為真時所得樣本極端結果出現的概率,一旦出現p值,就有理由拒絕原假設,p值越小,拒絕的理由越充分
- 顯著性水平(一個可允許的概率作為判斷界限的小概率標準)和置信區間(真實值有一定概率落在測量結果的周圍的程度)
- 大數定理和中心極限定理
三.開放題
1.異常歸因類
- 設題原因:一般來說,互聯網大廠都會構建自己的數據監控體系,作為數據分析師,除了解讀數據并從數據中發現增長點,對數據異常的歸隱定論也是重要的工作之一
- 舉例:某電商平臺,每日監控當日的成交額情況,突然有一天某類目成交額暴增,請問作為數據分析師你該如何分析?
- 問題確認:首先需要確認該問題是否真實存在,即校驗數據的準確性。例如:數據提取是否存在邏輯錯誤,上游表是否存在重復記錄的問題
- 確認有無外因,舉例:1)環境影響,是否存在某爆款商品2)時間因素,是否存在季節性波動3)競品因素
- 內因分析拆解:1)商品維度拆解:可設計相關指標定位異常行業,店鋪等2)用戶拆解:可以拆解是否存在高客單用戶,因某個個體拉高了特定類目的成交額,其次我們可以根據用戶的屬性,比如地域,年齡,新老客等維度進行拆分解析
- 劃重點:異常歸因類問題建議有邏輯有結構的回答,體現基本嚴謹的分析思路
- 常見做法即排外拆內:排查有無外因影響后,通過業務涉及具體維度下鉆分析
2.AB實驗類
- 如果沒有相關經驗,會問你原理,步驟,衡量標準等基礎概念
3.專業知識類
- 概率論與數理統計,機器學習,數據庫
4.估算類
- 主要考察你的邏輯分析能力
- 舉例:北京地鐵站旁有多少個煎餅果子鋪?上海有多少家早餐店?
5.指標體系類
- 舉例:設計某策略的AB試驗指標?上線一款新的APP,你打算如何布控監控體系?
- tips:面試公司的基礎產品和功課了解
6.軟問題
- 職業規劃類:為什么選擇數據分析師行業?你對數據分析師一職如何看?
- 實際工作類:如何成為一名優秀的數據分析師,如若入職,你有什么規劃打算?
7.反問類
- 如若有這一環節,抓住寶貴機會,想辦法變成自己的加分項,不要問無意義的廢話
四.業務知識
-
AB測試,對照組實驗組的選取,埋點的設置,尤其注意頁面訪問統計和用戶瀏覽行為的相關指標,留存率的不同時段的分析
-
辛普森悖論
-
日活,月活,gmv的變動分析,這類都可以統歸為指標異動分析,沒有固定的答案,但要有一條自己的分析體系,重點是要劃分好維度和內外部綜合分析
-
為某個APP搭建一套指標體系,可以按照標準的人貨場回答,也可以按照APP產品處于不同生命周期的階段進行回答,思路正確且完整就行,當然不同業務類型的APP要回答不同的業務指標
-
商業變現(廣告,增值服務,電商),這個經常會跟產品的生命周期結合,產品的不同階段需要的引流和關注的用戶群體是完全不一樣的
-
歸因分析和漏斗轉化分析
-
用戶畫像(屬性,行為,需求偏好)
總結
以上是生活随笔為你收集整理的面试题小结 (数据分析)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用浏览器访问tomcat服务器下的文件
- 下一篇: 一文搞定 JVM 面试,教你吊打面试官~