當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据面试知识点

發布時間：2023/12/31 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据面试知识点小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據：
1.離線數倉【ERP、電商、業務清楚、】
1.業務熟悉
2.技術架構
3.數倉建設
4.指標【5個】
做過哪些指標
如何做的

2.spark工具： 1.技術架構2.優點： 3.實時指標yarn ： 1.背景 2.好處3.具體實現

3.回答技術點【簡歷上的】
1.linux ：
1.pid port
2.tail -f -F
3.cat
4.環境變量：
個人全局
5.常用的linux命令有哪些：
ps -ef
netstat
free
top
tail
查看文件大小：ll -h du -sh
查看文件按照日期進行排序
2.shell：
1.數倉 shell 怎么寫的：
1. spark-sql -f xx.sql
-e
sed
2.shell 腳本參數傳遞 $n $0 $1 $@ $# $?
sed awk
3.如何debug 【】

3.mysql：數據可視化1.sql function unionall join 索引【1.使用方式 =》給維度字段添加索引 sql where2。效果是啥查詢塊】4.hadoop： 1.hdfs 畫圖一邊說1.讀寫流程2.架構設計 3.ha 4.文件塊大小【版本】cdh apache 5.小文件如何解決：1.合并【java代碼合并 hdfs api 】2.刪除2.mapreduce ： 1.架構 input =》 mapper =》shuffle =》reduce =》 output 2.調優：壓縮【掌握】3.task 個數： map task個數 =》切片 =》切片大小默認情況 reducetask個數 =》用戶自己3.yarn ： 1.架構設計【*】2.yarn ha 3.調度器你們公司集群規模？ 10一臺節點： 128G 40T 64core hadoop集群資源劃分：container5.hive ： 1.知識點數據：1.元2.hdfs 2.架構設計【了解】3.引擎： mr 【默認】spark tezhive on spark vs spark on hive 4.sql ： 1.數據清洗函數 2.聚合函數 3.開窗函數：1.排序 4.grouping sets 【維度組合分析】5.udf 函數： 1. 臟數據處理 =》 2.json 【不規范json】3.數據傾斜udf ：1.column +前綴 2.column - 前綴6.四大by 7.內部表 vs 外部表 8.分桶表【】5.調優： shuffle 1.join 1.map join 2.shuffle join =>數據傾斜2.group by : =>數據傾斜6.flume ： 1.架構設計2.source ： file ：三種區別3.channel ： 1.file 2.mem 4.sink :hdfs [小文件問題]5.監控： 1.數據-D http.port => web => json [channel 里面的數 ]：1.souce 2.channel 3.sink =》 ck mysql =》數據可視化2.程序： 1.掛了 =》拉起pid =》報警 =》拉起7.kafka ： 1.架構設計2.ack 3.交付語義： 1.producer 【版本】2.consumer 【消費的框架】1.offset 提交 + 消費數據 =》 spark 4.數據存儲機制： 1.segment 2.查找某個offset 5.kafka為什么快? 1.零拷貝 2.按順序寫磁盤 6.kafka 亂序問題【偽命題】=》 kafka 8.hbase ： 0.架構設計【邏輯層面圖】1.讀寫流程 2.rk設計： 1.優點2.缺點3.phoenix 4.調優：memestore flush級別：【】1.總結9.spark : 1.sparkcore: [10% 輸出 text ]：1.wc 手寫【spark算子】【scala function】2.join corgroup 3.reducebykey groupbykey 4.coalse repartition 5.腳本： spark-shell spark-submit $@6.rdd1.5大特性 2.彈性3.分布式2.sparksql: 1.sql 2.api ： 1.df ds 【rdd區別】【相互轉換】2.schema 、catalog =》工具3.調優1.小文件2.數據傾斜： join group by [并行度]： sql =》 xxx.sql => set k=v sql => colase[函數] hints 代碼 =》算子3.ss： 1.kafka ： 1.offset 如何管理： 1.三種2.updatestateByKey【實時】： 1.有狀態2.無狀態3.調優： 1.kafka限速2.背壓4.閉包： sink mysql 總體： 1.spark內存管理 2.spark任務提交流程： 10.javase: 1.string 2.集合：collection： set map arraylist底層實現 hashtable 與hashmap 區別 3.反射【談談】4.jvm： 1.運行時數據區 2.gc ：1.算法 2.這么用 3.調優： oom ？調優參數

總結

以上是生活随笔為你收集整理的大数据面试知识点的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ubuntu远程访问sftp服务器_ub
下一篇：软件工程部分术语英文缩写