日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据面试知识点

發布時間:2023/12/31 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据面试知识点 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據:
1.離線數倉【ERP、電商、業務清楚、】
1.業務熟悉
2.技術架構
3.數倉建設
4.指標【5個】
做過哪些指標
如何做的

2.spark工具: 1.技術架構2.優點: 3.實時指標yarn : 1.背景 2.好處3.具體實現

3.回答技術點 【簡歷上的】
1.linux :
1.pid port
2.tail -f -F
3.cat
4.環境變量:
個人 全局
5.常用的linux命令有哪些:
ps -ef
netstat
free
top
tail
查看文件大小:ll -h du -sh
查看文件按照日期進行排序
2.shell:
1.數倉 shell 怎么寫的 :
1. spark-sql -f xx.sql
-e
sed
2.shell 腳本參數傳遞 $n $0 $1 $@ $# $?
sed awk
3.如何debug 【】

3.mysql: 數據可視化1.sql function unionall join 索引【1.使用方式 =》 給維度字段添加索引 sql where2。效果是啥 查詢塊】4.hadoop: 1.hdfs 畫圖 一邊說1.讀寫流程2.架構設計 3.ha 4.文件塊大小 【版本 】cdh apache 5.小文件如何解決:1.合并【java代碼 合并 hdfs api 】2.刪除2.mapreduce : 1.架構 input =》 mapper =》shuffle =》reduce =》 output 2.調優 : 壓縮【掌握】3.task 個數 : map task個數 =》 切片 =》 切片大小 默認情況 reducetask個數 =》 用戶自己3.yarn : 1.架構設計 【*】2.yarn ha 3.調度器你們公司集群規模? 10一臺節點 : 128G 40T 64core hadoop集群資源劃分:container5.hive : 1.知識點 數據:1.元2.hdfs 2.架構設計【了解】3.引擎: mr 【默認】spark tezhive on spark vs spark on hive 4.sql : 1.數據清洗函數 2.聚合函數 3.開窗函數 :1.排序 4.grouping sets 【維度組合分析】5.udf 函數 : 1. 臟數據處理 =》 2.json 【不規范json】3.數據傾斜udf :1.column +前綴 2.column - 前綴6.四大by 7.內部表 vs 外部表 8.分桶表【】5.調優: shuffle 1.join 1.map join 2.shuffle join =>數據傾斜2.group by : =>數據傾斜6.flume : 1.架構設計2.source : file : 三種區別3.channel : 1.file 2.mem 4.sink :hdfs [小文件問題]5.監控 : 1.數據-D http.port => web => json [channel 里面的數 ]:1.souce 2.channel 3.sink =》 ck mysql =》 數據可視化2.程序: 1.掛了 =》拉起pid =》 報警 =》 拉起7.kafka : 1.架構設計2.ack 3.交付語義: 1.producer 【版本】2.consumer 【消費的框架】1.offset 提交 + 消費數據 =》 spark 4.數據存儲機制: 1.segment 2.查找某個offset 5.kafka為什么快? 1.零拷貝 2.按順序寫磁盤 6.kafka 亂序問題【偽命題】=》 kafka 8.hbase : 0.架構設計【邏輯層面 圖】1.讀寫流程 2.rk設計: 1.優點2.缺點3.phoenix 4.調優:memestore flush級別: 【】1.總結9.spark : 1.sparkcore: [10% 輸出 text ]:1.wc 手寫【spark算子】 【scala function】2.join corgroup 3.reducebykey groupbykey 4.coalse repartition 5.腳本: spark-shell spark-submit $@6.rdd1.5大特性 2.彈性3.分布式2.sparksql: 1.sql 2.api : 1.df ds 【rdd區別】【相互轉換】2.schema 、catalog =》 工具3.調優1.小文件2.數據傾斜 : join group by [并行度]: sql =》 xxx.sql => set k=v sql => colase[函數] hints 代碼 =》 算子3.ss: 1.kafka : 1.offset 如何管理 : 1.三種2.updatestateByKey【實時 】: 1.有狀態2.無狀態3.調優: 1.kafka限速2.背壓4.閉包: sink mysql 總體: 1.spark內存管理 2.spark任務提交流程: 10.javase: 1.string 2.集合 :collection: set map arraylist底層實現 hashtable 與hashmap 區別 3.反射【談談】4.jvm: 1.運行時數據區 2.gc :1.算法 2.這么用 3.調優: oom ?調優參數

總結

以上是生活随笔為你收集整理的大数据面试知识点的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。