日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【大数据学习-hadoop1】大数据如何处理

發布時間:2024/7/5 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【大数据学习-hadoop1】大数据如何处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 1. 大數據啟蒙
    • 1.1 意義
      • 1.1.1 查找元素
      • 1.1.2 單機處理大數據問題
  • 1.2 歷史
  • 1.3 hadoop

1. 大數據啟蒙

學習視頻
大數據多,復雜度很重要,

  • 內存不夠,分治處理
  • IO仍成為瓶頸,多機器并行
  • 多機器間通信也可以并行,但仍是個問題
    • 分發上傳,累計計算的話,多臺同時跑+通信也比一臺快

總結(大數據的重點)

  • 分而治之
  • 并行計算
  • 計算向數據移動:數據移動化成本高
  • 數據本地化讀取

1.1 意義

1.1.1 查找元素

1w個元素中查找X?
線性查找:O(N)
想要O(4)呢?hash

1.1.2 單機處理大數據問題

  • 大文本,僅兩行一樣,想要找出。
    單機,內存小(幾十兆)

    2. 如果文件中全是數字,做排序呢?
    桶排序:外部有序,內部無序
    先分到不同桶里,再給桶內排序

    歸并:一次讀50M排序,第二次在讀50M對這個50M排序–外部無序,內部無序

    單機IO瓶頸,所以多機器并行

    多臺機器并行操作,處理速度快,但不同機器間網絡通信?

    1.2 歷史

    Hadoop
    NDFS(一開始的文件系統)
    hadoop.apache.org:頂級項目

    1.3 hadoop

    hadoop項目包含:
    1.x:
    hadoop common
    hdfs(hadoop distributed file system
    hadoop mapreduce
    2.x:
    新增yarn:job管理、資源分配

    其他相關項目(生態圈):
    Hbase:
    Hive:sql、數倉
    Spark:用內存,更快,是hadoop的十倍
    Zookeeper:協調服務


    網站:www.cloudera.com
    ducumentation:選擇版本
    目前企業版本:5.16.X–可靠,hadoop2.6
    原來:batch批量計算
    flink/spark:全棧的

    • flink:阿里用的多:流式計算,來一個搞一個/5min跑一次
      • 可以實時
    • spark:偽實時

    總結

    以上是生活随笔為你收集整理的【大数据学习-hadoop1】大数据如何处理的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。