日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

刚入职场的菜鸟,这些大数据知识点,你必须掌握了!

發(fā)布時間:2024/7/23 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 刚入职场的菜鸟,这些大数据知识点,你必须掌握了! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?

一、Hadoop入門

1、常用端口號

hadoop3.x

  • HDFS NameNode 內(nèi)部通常端口:8020/9000/9820

  • HDFS NameNode 對用戶的查詢端口:9870

  • Yarn查看任務(wù)運行情況的:8088

  • 歷史服務(wù)器:19888

hadoop2.x

  • HDFS NameNode 內(nèi)部通常端口:8020/9000

  • HDFS NameNode 對用戶的查詢端口:50070

  • Yarn查看任務(wù)運行情況的:8088

  • 歷史服務(wù)器:19888

2、常用的配置文件

  • 3.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml workers

  • 2.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml slaves

二、HDFS

  • 1、HDFS文件塊大小(面試重點)
    • 硬盤讀寫速度

    • 在企業(yè)中 ?一般128m(中小公司) ??256m (大公司)

  • 2、HDFS的Shell操作(開發(fā)重點)

  • 3、HDFS的讀寫流程(面試重點)

三、Map Reduce

1、InputFormat

  • 1)默認(rèn)的是TextInputformat ?kv ?key偏移量,v :一行內(nèi)容

  • 2)處理小文件CombineTextInputFormat 把多個文件合并到一起統(tǒng)一切片

2、Mapper

  • setup()初始化; ?map()用戶的業(yè)務(wù)邏輯; clearup() 關(guān)閉資源;

3、分區(qū)

  • 默認(rèn)分區(qū)HashPartitioner ,默認(rèn)按照key的hash值%numreducetask個數(shù)

  • 自定義分區(qū)

4、排序

  • 1)部分排序 ?每個輸出的文件內(nèi)部有序。

  • 2)全排序: ?一個reduce ,對所有數(shù)據(jù)大排序。

  • 3)二次排序: ?自定義排序范疇, 實現(xiàn) writableCompare接口, 重寫compareTo方法

5、Combiner

前提:不影響最終的業(yè)務(wù)邏輯(求和 沒問題 ??求平均值) ????????

提前聚合map ?=> 解決數(shù)據(jù)傾斜的一個方法

6、Reducer

  • 用戶的業(yè)務(wù)邏輯;

  • setup()初始化;

  • reduce()用戶的業(yè)務(wù)邏輯;

  • clearup() 關(guān)閉資源;

7、OutputFormat

  • 1)默認(rèn)TextOutputFormat ?按行輸出到文件

  • 2)自定義

四、Yarn

  • 1、Yarn的工作機制(面試題)

  • 2、Yarn的調(diào)度器
    • 1)FIFO/容量/公平

    • 2)apache 默認(rèn)調(diào)度器 ?容量; CDH默認(rèn)調(diào)度器 公平

    • 3)公平/容量默認(rèn)一個default ,需要創(chuàng)建多隊列

    • 4)中小企業(yè):hive ?spark flink ?mr

    • 5)中大企業(yè):業(yè)務(wù)模塊:登錄/注冊/購物車/營銷

    • 6)好處:解耦 ?降低風(fēng)險 ?11.11 ?6.18 ?降級使用

    • 7)每個調(diào)度器特點:
      • 相同點:支持多隊列,可以借資源,支持多用戶

      • 不同點:
        • 容量調(diào)度器:優(yōu)先滿足先進來的任務(wù)執(zhí)行;

        • 公平調(diào)度器,在隊列里面的任務(wù)公平享有隊列資源

    • 8)生產(chǎn)環(huán)境怎么選:
      • 中小企業(yè),對并發(fā)度要求不高,選擇容量

      • 中大企業(yè),對并發(fā)度要求比較高,選擇公平。

添加公眾號「信息技術(shù)智庫」:

🍅 硬核資料:20G,8大類資料,關(guān)注即可領(lǐng)取(PPT模板、簡歷模板、技術(shù)資料)
🍅 技術(shù)互助:技術(shù)群大佬指點迷津,你的問題可能不是問題,求資源在群里喊一聲。
🍅 面試題庫:由各個技術(shù)群小伙伴們共同投稿,熱乎的大廠面試真題,持續(xù)更新中。
🍅 知識體系:含編程語言、算法、大數(shù)據(jù)生態(tài)圈組件(Mysql、Hive、Spark、Flink)、數(shù)據(jù)倉庫、前端等。

👇👇送書抽獎丨技術(shù)互助丨粉絲福利👇👇

總結(jié)

以上是生活随笔為你收集整理的刚入职场的菜鸟,这些大数据知识点,你必须掌握了!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。