qbytearry有数据上限吗_金仕达大数据开发岗位面试题
金仕達(dá)-上海
(1)自我介紹
(2)在離線數(shù)倉(cāng),實(shí)時(shí)數(shù)倉(cāng)中擔(dān)任的角色是什么,介紹項(xiàng)目?數(shù)據(jù)量有多大?
(3)實(shí)時(shí)的指標(biāo)和離線指標(biāo)怎么消除掉?有沒(méi)有必要一致?
(4)Flink上有多少個(gè)指標(biāo),一個(gè)指標(biāo)一個(gè)jar包嗎?Flink親自負(fù)責(zé)的有幾個(gè)jar包產(chǎn)出?
(5)flink的開(kāi)發(fā)中用了哪些算子?
(6)flink的異步j(luò)oin有了解嗎?就是例如kafka 和 mysql的流進(jìn)行join
(7)flink的boardcast join 的原理是什么?
(8)flink的雙流join你們用的時(shí)候是 類似數(shù)據(jù)中的left join還是inner join,雙流join中怎么確定左表還是右表【沒(méi)太懂,好像應(yīng)該是full join】
(9)flink集群有多大,怎么部署的?
(10)hadoop集群有多大,分給flink有多少資源,多少cpu,多少內(nèi)存,多少slot?
(11)你自己寫(xiě)的那些jar包,用了多少cpu,用了內(nèi)存,多少個(gè)slot?
(12)有沒(méi)有關(guān)注你的jar包的處理性能,就是處理kafka的qps和tps?
(13)你們有用過(guò)flink的背壓?jiǎn)?#xff0c;怎么做優(yōu)化還是調(diào)整?
(14)flink的知識(shí)點(diǎn)還有啥想介紹的?
(15)你們實(shí)際生產(chǎn)中checkPoint配置了沒(méi)有,有配置重啟策略嗎?
(16)詳細(xì)介紹下使用布隆過(guò)濾器去重,去重的效率或者去重性能能達(dá)到多少?就是說(shuō)判斷的延遲是多少。
(17)你們100W的日活,每天這套體系這套系統(tǒng)能夠處理的上限產(chǎn)生延遲最大的支撐時(shí)間范圍是多少?有沒(méi)有關(guān)注到?【沒(méi)太懂,錄音40分鐘半左右】
(18)sparkStreaming的最小的批的大小時(shí)間是多少?你們批大小是多少秒?你們所有批都是5s嗎?還是不同指標(biāo)批次時(shí)間不一樣?這個(gè)5s是怎么設(shè)置出來(lái)的?
(19)sparkStreaming提交一個(gè)任務(wù),有沒(méi)有遇到這個(gè)錯(cuò)誤, adress is already in use ,這個(gè)地址已經(jīng)被使用了?是什么原因?
(20)所以sparkStreaming的開(kāi)發(fā)中遇到過(guò)什么問(wèn)題?
(21)搭過(guò)spark集群?jiǎn)?#xff1f;有用過(guò)CDH嗎?你們?cè)趺创畹腶pache框架?怎么進(jìn)行集群監(jiān)控,例如哪些節(jié)點(diǎn)down掉,失效?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的qbytearry有数据上限吗_金仕达大数据开发岗位面试题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 手机mstsc远程工具_远程桌面连接,只
- 下一篇: 安康治疗输卵管积液最好的医院推荐