當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

光环大数据spark文档_推荐大数据Spark必读书目

發布時間：2024/10/8 编程问答 61 豆豆

生活随笔收集整理的這篇文章主要介紹了光环大数据spark文档_推荐大数据Spark必读书目小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我有一個非常要好的同事，無數次幫我解決了業務上的痛。技術能力很強，業務方面也精通。而且更耐得住加班，并且是自愿加班，毫無怨言。不像我，6點到準時走人了。但就是這么一位兢兢業業的技術人，卻一直沒有升職加薪的機會，黯然神傷之下，只能離開，挺可惜。

在數據庫承擔了所有業務訪問的重壓下，團隊決定用ElasticSearch來取代數據庫上承載的搜索任務。在灰度上線之后，取得了很好的反響。于是，我從京東上一口氣買了5本ElasticSearch的技術書，慢慢的啃起來。這位同事也來找我借書看，大家都知道的，我一般不輕易借書給別人。但對他倒是例外。我相信他能看得下去，能發揮出書的作用。我欣然答應。

沒過一個禮拜，這哥們過來還書了。我借他的是其中一本操作性能強的書。所以這么快看完，也是出乎我的意料。我就隨口問了句，“ES是不是很牛皮，給你點時間，百度你都能做出來了吧”。結果這哥們的一句話，徹底顛覆我對他的認識。“這沒什么好看的，我就看了前幾章。知道有這回事就行了。不就是SQL中的Like嘛。細節我都跳過了。”

我本以為我的黃氏看書法足夠囂張了，沒想到還是敗在了這哥們手上。

所以，看書真的只是從頭到尾，掃一遍就可以的嘛？

這兩個月我一直都在摸索大數據Spark組件的知識框架，從原理，搭建環境，到源碼閱讀，無所不包。書自然也看過很多，但值得花心思去看的，也就這么一本。它就是王家林的《Spark大數據商業實戰三部曲：內核解密|商業案例|性能調優》。尤其是其中商業案例這部分足夠吸引我。用個畫來表達下

上面的框架或許過于復雜，那么我簡單抽象成最小可執行單元

只有足夠精彩的書，才能讓我有畫畫的沖動。根據這幅畫，我摸索著寫出來所有實現畫中細節的代碼，也漸漸發現自己對Spark的掌握順手了。

從最初級的RDD編程玩起，慢慢過渡到 Spark SQL, Spark DataFrame, Spark Streaming. 做了一系列順暢運行的小例子，最終實現 Spark Streaming 吃進Kafka消息，并存盤MySQL.

代碼這里我就省略了，基本都是從《Spark大數據商業實戰三部曲》復制下來的，少許已經淘汰的 API，谷歌里百度下，也都能搞定。

最核心的就是Spark Stream消費程序，讀取Kafka集群的消息：

val kafkaParams = Map[String, Object]("bootstrap.servers" -> "192.168.1.8:9092","key.deserializer" -> classOf[StringDeserializer],"value.deserializer" -> classOf[StringDeserializer],"group.id" -> "spark_kafka_consumer_01","auto.offset.reset" -> "latest","enable.auto.commit" -> (false: java.lang.Boolean))val topic = Array("newbook")val stream = KafkaUtils.createDirectStream[String, String](sparkstreamcontext,PreferConsistent,ConsumerStrategies.Subscribe[String,String](topic, kafkaParams))

如果仔細看文檔，這點代碼量不會難倒你。

在這個過程中，再一次驗證一個學習方法，對我來說非常有用，那就是從頭到尾的讀一本技術操作型的書，會讓你失去很多樂趣。我的方法是盡快讀完基礎部分，然后找到最小實現單元，自己動手完成它。

在做實例的過程中，會碰到各種各樣的問題，此時會逼著你去讀各種各樣的材料，代碼，直到把例子做出來。好書，就像藏寶圖。用心去尋找，總能給你驚喜。在實現本例的過程中，我在微信讀書上參考了很多其他書，并且都做了標記和思考，有興趣的朋友，可以加我好友，一起來討論。

僅僅把書囫圇吞棗看完，只留個模糊概念，遠遠不夠。畢竟對老板說，我讀了某某書，你給我加錢，加工資，升職，是會被當做發癡的。優秀的程序員，只用代碼說話。

--完--

總結

以上是生活随笔為你收集整理的光环大数据spark文档_推荐大数据Spark必读书目的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python pipeline框架_介绍
下一篇： table表头固定4种方法_4种细砂回收

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

光环大数据spark文档_推荐大数据Spark必读书目

總結