當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

刚入职场的菜鸟，这些大数据知识点，你必须掌握了！

發布時間：2024/7/23 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了刚入职场的菜鸟，这些大数据知识点，你必须掌握了！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、Hadoop入門

1、常用端口號

hadoop3.x

HDFS NameNode 內部通常端口：8020/9000/9820
HDFS NameNode 對用戶的查詢端口：9870
Yarn查看任務運行情況的：8088
歷史服務器：19888

hadoop2.x

HDFS NameNode 內部通常端口：8020/9000
HDFS NameNode 對用戶的查詢端口：50070
Yarn查看任務運行情況的：8088
歷史服務器：19888

2、常用的配置文件

3.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml workers
2.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml slaves

二、HDFS

1、HDFS文件塊大小（面試重點）
- 硬盤讀寫速度
- 在企業中 ?一般128m（中小公司） ??256m （大公司）
2、HDFS的Shell操作（開發重點）
3、HDFS的讀寫流程（面試重點）

三、Map Reduce

1、InputFormat

1）默認的是TextInputformat ?kv ?key偏移量，v :一行內容
2）處理小文件CombineTextInputFormat 把多個文件合并到一起統一切片

2、Mapper

setup()初始化； ?map()用戶的業務邏輯； clearup() 關閉資源；

3、分區

默認分區HashPartitioner ，默認按照key的hash值%numreducetask個數
自定義分區

4、排序

1）部分排序 ?每個輸出的文件內部有序。
2）全排序： ?一個reduce ,對所有數據大排序。
3）二次排序： ?自定義排序范疇，實現 writableCompare接口，重寫compareTo方法

5、Combiner

前提：不影響最終的業務邏輯（求和沒問題 ??求平均值） ????????

提前聚合map ?=> 解決數據傾斜的一個方法

6、Reducer

用戶的業務邏輯；
setup()初始化；
reduce()用戶的業務邏輯；
clearup() 關閉資源；

7、OutputFormat

1）默認TextOutputFormat ?按行輸出到文件
2）自定義

四、Yarn

1、Yarn的工作機制（面試題）
2、Yarn的調度器
- 1）FIFO/容量/公平
- 2）apache 默認調度器 ?容量； CDH默認調度器公平
- 3）公平/容量默認一個default ，需要創建多隊列
- 4）中小企業：hive ?spark flink ?mr
- 5）中大企業：業務模塊：登錄/注冊/購物車/營銷
- 6）好處：解耦 ?降低風險 ?11.11 ?6.18 ?降級使用
- 7）每個調度器特點：
  - 相同點：支持多隊列，可以借資源，支持多用戶
  - 不同點：
    - 容量調度器：優先滿足先進來的任務執行；
    - 公平調度器，在隊列里面的任務公平享有隊列資源
- 8）生產環境怎么選：
  - 中小企業，對并發度要求不高，選擇容量
  - 中大企業，對并發度要求比較高，選擇公平。

添加公眾號「信息技術智庫」：

🍅 硬核資料：20G，8大類資料，關注即可領取（PPT模板、簡歷模板、技術資料）
🍅 技術互助：技術群大佬指點迷津，你的問題可能不是問題，求資源在群里喊一聲。
🍅 面試題庫：由各個技術群小伙伴們共同投稿，熱乎的大廠面試真題，持續更新中。
🍅 知識體系：含編程語言、算法、大數據生態圈組件（Mysql、Hive、Spark、Flink）、數據倉庫、前端等。

👇👇送書抽獎丨技術互助丨粉絲福利👇👇

總結

以上是生活随笔為你收集整理的刚入职场的菜鸟，这些大数据知识点，你必须掌握了！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：空间域图像增强
下一篇： React Native官方DEMO