大剑无锋之大数据面试题第一套(选择题)
Spark 的四大組件下面哪個(gè)不是 (D )
A.Spark Streaming? ? B. Mlib?
C Graphx? ? D.Spark R
下面哪個(gè)端口不是 spark 自帶服務(wù)的端口 (C )
A.8080 B.4040 C.8090 D.18080
備注:8080:spark集群web ui端口,4040:sparkjob監(jiān)控端口,18080:jobhistory端口
spark 1.4 版本的最大變化 (B )
A spark sql Release 版本??B .引入 Spark R?
C DataFrame D.支持動(dòng)態(tài)資源分配
Spark Job 默認(rèn)的調(diào)度模式 (A )
A FIFO? ?B FAIR? ?
C 無(wú)? ?D 運(yùn)行時(shí)指定
哪個(gè)不是本地模式運(yùn)行的個(gè)條件 ( D)
A spark.localExecution.enabled=true??
B 顯式指定本地運(yùn)行
C finalStage 無(wú)父 Stage
D partition默認(rèn)值
下面哪個(gè)不是 RDD 的特點(diǎn) (C )
A. 可分區(qū)? ?B 可序列化? ?C 可修改? ?D 可持久化
關(guān)于廣播變量,下面哪個(gè)是錯(cuò)誤的 (D )
A 任何函數(shù)調(diào)用? ? B 是只讀的??
C 存儲(chǔ)在各個(gè)節(jié)點(diǎn)? ? D 存儲(chǔ)在磁盤(pán)或 HDFS
關(guān)于累加器,下面哪個(gè)是錯(cuò)誤的 (D )
A 支持加法 B 支持?jǐn)?shù)值類型?
C 可并行 D 不支持自定義類型
Spark 支持的分布式部署方式中哪個(gè)是錯(cuò)誤的 (D )
A standalone B spark on mesos??
C spark on YARN D Spark on local
Stage 的 Task 的數(shù)量由什么決定 (A )
A Partition B Job C Stage D TaskScheduler
下面哪個(gè)操作是窄依賴 (B )
A join B filter?
C group D sort
下面哪個(gè)操作肯定是寬依賴 (C )
A map B flatMap?
C reduceByKey D sample
?
spark 的 master 和 worker 通過(guò)什么方式進(jìn)行通信的? (D )
A http B nio C netty D Akka
默認(rèn)的存儲(chǔ)級(jí)別 (A )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
spark.deploy.recoveryMode 不支持那種 (D )
A.ZooKeeper B. FileSystem?
D NONE D Hadoop
下列哪個(gè)不是 RDD 的緩存方法 (C )
A persist() B Cache()?
C Memory()
Task 運(yùn)行在下來(lái)哪里個(gè)選項(xiàng)中 Executor 上的工作單元 (C )
A Driver program B. spark master?
C.worker node D Cluster manager
hive 的元數(shù)據(jù)存儲(chǔ)在 derby 和 MySQL 中有什么區(qū)別 (B )
A.沒(méi)區(qū)別 B.多會(huì)話
C.支持網(wǎng)絡(luò)環(huán)境 D數(shù)據(jù)庫(kù)的區(qū)別
DataFrame 和 RDD 最大的區(qū)別 (B )
A.科學(xué)統(tǒng)計(jì)支持 B.多了 schema?
C.存儲(chǔ)方式不一樣 D.外部數(shù)據(jù)源支持
Master 的 ElectedLeader 事件后做了哪些操作 (D )
A. 通知 driver B.通知 worker?
C.注冊(cè) application D.直接 ALIVE
下面哪個(gè)程序負(fù)責(zé) HDFS 數(shù)據(jù)存儲(chǔ)。
a)NameNode ?b)Jobtracker ?c)Datanode d)secondaryNameNode e)tasktracker
答案 C datanode
HDfS 中的 block 默認(rèn)保存幾份?
a)3 份 b)2 份 c)1 份 d)不確定
答案 A 默認(rèn) 3 份
下列哪個(gè)程序通常與 NameNode 在一個(gè)節(jié)點(diǎn)啟動(dòng)?
a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker
答案 D
Hadoop 作者
a)Martin Fowler b)Kent Beck c)Doug cutting
答案 C Doug cutting
HDFS 默認(rèn) Block Size
a)32MB ?b)64MB c)128MB
答案:B
下列哪項(xiàng)通常是集群的最主要瓶頸
a)CPU ??b)網(wǎng)絡(luò) c)磁盤(pán) IO ?d)內(nèi)存
答案:C 磁盤(pán)
首先集群的目的是為了節(jié)省成本,用廉價(jià)的 pc 機(jī),取代小型機(jī)及大型機(jī)。小型機(jī)和大型機(jī)有什么特點(diǎn)?
1.cpu 處理能力強(qiáng)
2.內(nèi)存夠大,所以集群的瓶頸不可能是 a 和 d
3.如果是互聯(lián)網(wǎng)有瓶頸,可以讓集群搭建內(nèi)網(wǎng)。每次寫(xiě)入數(shù)據(jù)都要通過(guò)網(wǎng)絡(luò)(集群是內(nèi)網(wǎng)),然后還要寫(xiě)入 3 份數(shù)據(jù),所以 IO 就會(huì)打折扣。
關(guān)于 SecondaryNameNode 哪項(xiàng)是正確的?
a)它是 NameNode 的熱備 ????b)它對(duì)內(nèi)存沒(méi)有要求
c)它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動(dòng)時(shí)間
d)SecondaryNameNode 應(yīng)與 NameNode 部署到一個(gè)節(jié)點(diǎn)
答案 C。
下列哪項(xiàng)可以作為集群的管理?
a)Puppet b)Pdsh c)Cloudera Manager d)Zookeeper
答案 ABD
具體可查看什么是 Zookeeper,Zookeeper 的作用是什么,在 Hadoop 及 hbase 中具體作用是什么。
Client 端上傳文件的時(shí)候下列哪項(xiàng)正確
a)數(shù)據(jù)經(jīng)過(guò) NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數(shù)據(jù)到一臺(tái) DataNode,然后由 NameNode 負(fù)責(zé) Block 復(fù)制工作
答案 B
分析:Client 向 NameNode 發(fā)起文件寫(xiě)入的請(qǐng)求。NameNode 根據(jù)文件大小和文件塊配置情況,返回給 Client 它所管理部分 DataNode 的信息。Client 將文件劃分為多個(gè) Block,根據(jù) DataNode 的地址信息,按順序?qū)懭氲矫恳粋€(gè)DataNode 塊中。具體查看HDFS 體系結(jié)構(gòu)簡(jiǎn)介及優(yōu)缺點(diǎn)。
下列哪個(gè)是 Hadoop 運(yùn)行的模式
a)單機(jī)版 b)偽分布式 c)分布式
答案 ABC 單機(jī)版,偽分布式只是學(xué)習(xí)用的。
超強(qiáng)干貨來(lái)襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的大剑无锋之大数据面试题第一套(选择题)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 人生最美妙与最残忍的事情是同一件,那就是
- 下一篇: 大剑无锋之Hbase的优化【面试推荐】