當(dāng)前位置：首頁 >

数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K

發(fā)布時(shí)間：2024/4/14 42 豆豆

生活随笔收集整理的這篇文章主要介紹了数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

找工作的同學(xué)有福氣啦！真實(shí)大數(shù)據(jù)面試經(jīng)驗(yàn)分享系列文章逐步上線,歡迎持續(xù)關(guān)注！

某網(wǎng)

一位朋友的面經(jīng)，恭喜他拿到了高薪的 offer。

1、介紹項(xiàng)目

2、redis用過嗎

談?wù)剅edis吧

鍵值分別是什么，用的什么數(shù)據(jù)結(jié)構(gòu)

談?wù)剅edis的三種模式，你們用的什么模式

3、kafka

kafka+sparkstream的兩種模式，有什么區(qū)別

direct模式如果偏移量是自己維護(hù)嗎，如果來了一批數(shù)據(jù)還沒有消費(fèi)完，下一批就來了，如何保證每消費(fèi)完的那一部分?jǐn)?shù)據(jù)不會(huì)丟失

你們kafka里面一個(gè)topic下面設(shè)置了多少個(gè)patition，每個(gè)patition多少副本

假如讓你設(shè)計(jì)一個(gè)線程安全的kafka消費(fèi)模型，怎么設(shè)置，可以把它放在什么數(shù)據(jù)結(jié)構(gòu)中

4、hbase

你們r(jià)egion一般設(shè)置多少個(gè)

假如我要scan一張表，在hbase里面的流程是什么樣的(要注意把region的尋址也說出)

hbase你們一般讀操作多還是寫操作多還是混合操作

5、hive

hive分層

6、spark

spark優(yōu)化

spark shuffle的種類，分別有什么區(qū)別

spark MLlib用過什么庫

spark里面的數(shù)據(jù)模型

spark中job是怎么回事，是怎么劃分的

spark任務(wù)的執(zhí)行流程

7、storm與sparkstream對比

8、es了解嗎，它比solr好在哪里，底層是什么

9、JVM了解多少

spark統(tǒng)一內(nèi)存管理中，存儲(chǔ)內(nèi)存和執(zhí)行內(nèi)存占的比例，執(zhí)行內(nèi)存占用資源后，存儲(chǔ)內(nèi)存還可以拿回去嗎

10、java：

spring的aop、ioc

springmvc處理一個(gè)請求的流程是什么樣的

springmvc用了什么設(shè)計(jì)模式

arrayList底層是什么？與linkList對比

線程池用的多嗎？怎么得到一個(gè)帶返回值的線程

--------------------------------------------

11、hashmap的原理又被問到了，怎么防止hashmap的碰撞問題

12、寫個(gè)冒泡排序？快排是什么樣的

13、說說spark的RDD

14、hdfs有什么結(jié)構(gòu)

15、hive的優(yōu)化

16、hbase的rowkey設(shè)計(jì)

17、kafka的數(shù)據(jù)丟失和重復(fù)消費(fèi)問題

18、jvm中新生代跟老年代的比例

19、線程有什么狀態(tài)

20、flume有沒有碰到過收集到重復(fù)數(shù)據(jù)的問題，怎么解決呢

21、sqoop從兩臺不同的服務(wù)器拉數(shù)據(jù)的時(shí)候，萬一服務(wù)器時(shí)間不同步會(huì)有什么情況

22、dubbo是干什么用的，怎么用

總結(jié)

以上是生活随笔為你收集整理的数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：怎么写脚本_直播脚本怎么写|请收下这份攻
下一篇： ocv特性_实际使用工况的锂离子电池SO

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K

某網(wǎng)

總結(jié)