数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K
找工作的同學(xué)有福氣啦!真實(shí)大數(shù)據(jù)面試經(jīng)驗(yàn)分享系列文章逐步上線,歡迎持續(xù)關(guān)注!
某網(wǎng)
一位朋友的面經(jīng),恭喜他拿到了高薪的 offer。
1、介紹項(xiàng)目
2、redis用過嗎
談?wù)剅edis吧
鍵值分別是什么,用的什么數(shù)據(jù)結(jié)構(gòu)
談?wù)剅edis的三種模式,你們用的什么模式
3、kafka
kafka+sparkstream的兩種模式,有什么區(qū)別
direct模式如果偏移量是自己維護(hù)嗎,如果來了一批數(shù)據(jù)還沒有消費(fèi)完,下一批就來了,如何保證每消費(fèi)完的那一部分?jǐn)?shù)據(jù)不會(huì)丟失
你們kafka里面一個(gè)topic下面設(shè)置了多少個(gè)patition,每個(gè)patition多少副本
假如讓你設(shè)計(jì)一個(gè)線程安全的kafka消費(fèi)模型,怎么設(shè)置,可以把它放在什么數(shù)據(jù)結(jié)構(gòu)中
4、hbase
你們r(jià)egion一般設(shè)置多少個(gè)
假如我要scan一張表,在hbase里面的流程是什么樣的(要注意把region的尋址也說出)
hbase你們一般讀操作多還是寫操作多還是混合操作
5、hive
hive分層
6、spark
spark優(yōu)化
spark shuffle的種類,分別有什么區(qū)別
spark MLlib用過什么庫
spark里面的數(shù)據(jù)模型
spark中job是怎么回事,是怎么劃分的
spark任務(wù)的執(zhí)行流程
7、storm與sparkstream對比
8、es了解嗎,它比solr好在哪里,底層是什么
9、JVM了解多少
spark統(tǒng)一內(nèi)存管理中,存儲(chǔ)內(nèi)存和執(zhí)行內(nèi)存占的比例,執(zhí)行內(nèi)存占用資源后,存儲(chǔ)內(nèi)存還可以拿回去嗎
10、java:
spring的aop、ioc
springmvc處理一個(gè)請求的流程是什么樣的
springmvc用了什么設(shè)計(jì)模式
arrayList底層是什么?與linkList對比
線程池用的多嗎?怎么得到一個(gè)帶返回值的線程
--------------------------------------------
11、hashmap的原理又被問到了,怎么防止hashmap的碰撞問題
12、寫個(gè)冒泡排序?快排是什么樣的
13、說說spark的RDD
14、hdfs有什么結(jié)構(gòu)
15、hive的優(yōu)化
16、hbase的rowkey設(shè)計(jì)
17、kafka的數(shù)據(jù)丟失和重復(fù)消費(fèi)問題
18、jvm中新生代跟老年代的比例
19、線程有什么狀態(tài)
20、flume有沒有碰到過收集到重復(fù)數(shù)據(jù)的問題,怎么解決呢
21、sqoop從兩臺不同的服務(wù)器拉數(shù)據(jù)的時(shí)候,萬一服務(wù)器時(shí)間不同步會(huì)有什么情況
22、dubbo是干什么用的,怎么用
總結(jié)
以上是生活随笔為你收集整理的数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么写脚本_直播脚本怎么写|请收下这份攻
- 下一篇: ocv特性_实际使用工况的锂离子电池SO