當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据Re1

發布時間：2023/12/20 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据Re1 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

寫在前面的話

入行大數據兩年多以來，有很多感想，簡單說幾句。與其他所有計算機相關行業的學習類似，大數據的學習同樣是在網絡上找資料，看視頻，然后自己練手摸索，遇到問題找博客找平臺大佬提問題。

絕大部分時間都是一個人的負重前行，更不必說，網絡上的資料良莠不齊，既要去偽存真，又要相互映照，不同觀點不同闡述，不同理解之間產生的碰撞和疑問雖說難能可貴，但確實是學習過程中不小的障礙，概念原理該理解到什么層次，什么地方應該著重分析，什么地方可以簡單了解，都是新手難以把握的部分。

有感于此，筆者決心帶著最近幾年的淺薄經驗，重新以初學者的心態審視大數據的一些概念，框架，和原理，參照教材和行業書籍，帶著自己的理解，整理成系列文章，既是給自己理清頭緒，也希望能給新手一些小小的幫助，就心滿意足了。

1.大數據時代

1.1數據和信息

首先，對大數據最簡單的理解，就是大量的數據，那么大量的數據從何而來？我們知道，數據就是我們通過觀察，實驗或者計算得到的結果。與信息不同，離散的數據幾乎沒有任何實用價值。

而信息是一個宏觀的概念，泛指人類社會傳播的一切內容。1948年，數學家香農指出：信息是用來消除隨機不確定性的東西。科學的信息概念可以概括如下：

信息是對客觀世界中各種事物的運動狀態和變化的反映，是客觀事物之間相互聯系和相互作用的表征，表現的是客觀事物運動狀態和變化的實質內容。

1.2數據產生方式

可以說，數據產生方式的變革，孕育了大數據這一概念。總體來說，人類社會產生數據的方式大致經歷了如下三個階段：運營式系統階段、用戶原創內容階段和感知式系統階段。

運營式系統階段

人類社會最早大規模管理和使用數據，是從數據庫的誕生開始的。超市銷售系統，永航交易系統，股市交易系統等等，都建立在數據庫的基礎上。這個階段顯著的特征就是，數據的產生方式是被動的，只有實際的企業業務發生時，才產生新的數據并記錄到數據庫。
用戶原創內容階段

隨著互聯網的出現和發展，數據傳播更加快捷，Web 1.0時代，主要以門戶網站為代表，強調內容的組織與提供，大量上網用戶本身并不參與內容的產生。而Web 2.0時代，隨著移動互聯網和智能手機的普及，包括各大自服務平臺的搭建，上網用戶逐漸成為平臺內容的生產者，數據量開始急劇增長。
感知式系統階段

感知式系統階段與物聯網的發展緊密相關，物聯網中包含各種各樣的傳感器和攝像頭，這些設備每時每刻都在產生大量的數據，與Web 2.0時代的人工數據產生方式相比，物聯網中的自動數據產生方式，將在短時間內生成更密集、更大量的數據。

1.3大數據的概念

至此，對大數據這個概念，我們終于能夠給出一個比較合適的解釋，或者說大數據的四個特點：數據量大（Volume）、數據類型繁多（Variety）、處理速度快（Velocity）和價值密度低（Value）。

數據量大（Volume）

根據著名咨詢機構互聯網數據中心（Internet Data Center,IDC）做出的估測，人類社會產生的數據一直都在以每年50%的速度增長，也就是說，每兩年就增加一倍多，這被稱為“大數據摩爾定律”。這意味著，人類在最近兩年產生的數據量相當于之前產生的全部數據量之和。2020年，全球總共擁有約44ZB的數據量，與2010年相比，數據量將增長近40倍。
數據類型繁多（Variety）

大數據的數據來源眾多，科學研究、企業應用和Web應用等都在源源不斷地生成新的類型繁多的數據。生物大數據、交通大數據、醫療大數據、電信大數據、電力大數據、金融大數據等，都呈現出“井噴式”增長，所涉及的數據量十分巨大，已經從TB級別躍升到PB級別。各行各業，每時每刻，都在生成各種不同類型的數據。
處理速度快（Velocity）

大數據時代的數據產生速度非常快。在Web 2.0應用領域，在1分鐘內，新浪微博可以產生2萬條微博，Twitter可以產生10萬條推文，蘋果可以產生下載4.7萬次應用的數據，淘寶可以賣出6萬件商品，百度可以產生90萬次搜索查詢的數據。大名鼎鼎的大型強子對撞機（Large Hadron Collider,LHC），大約每秒產生6億次的碰撞，每秒生成約700 MB的數據，同時有成千上萬臺計算機在分析這些碰撞。
價值密度低（Value）

大數據時代的數據產生速度非常快。在Web 2.0應用領域，在1分鐘內，新浪微博可以產生2萬條微博，Twitter可以產生10萬條推文，蘋果可以產生下載4.7萬次應用的數據，淘寶可以賣出6萬件商品，百度可以產生90萬次搜索查詢的數據。大名鼎鼎的大型強子對撞機（Large Hadron Collider,LHC），大約每秒產生6億次的碰撞，每秒生成約700 MB的數據，同時有成千上萬臺計算機在分析這些碰撞。[1]

出現了巨量的數據，人們自然而然想要利用這些數據來改造世界。信息科技需要解決信息存儲，傳輸和信息處理三個核心問題，這也是大數據要面對的主要問題。存儲設備的容量在不斷增加，CPU的計算能力也在不斷提升，但是另一方面越頂級的CPU，越大的存儲容量就意味著越高昂的價格，消耗的財力是另一方面，單臺機器的性能不管多么優越，總有其性能瓶頸，分布式技術應運而生。

1.4分布式的概念

分布式技術為海量數據的存儲，傳輸和運算提供了可能。廣泛的說，相比于傳統的單機架構，分布式架構解決了互聯網應用的兩大難題：高并發和高可用，這兩大難點也正是單機架構的缺點：性能瓶頸和單點故障。針對海量數據，分布式存儲將數據存儲到成百上千臺服務器上，滿足了海量數據的存儲需求；分布式計算提供了快速數據處理的能力

[1]林子雨. 大數據技術原理與應用[M].人民郵電出版社:大數據創新人才培養系列, 201701.301.

[2]Zhiwu Wang. God-Of-BigData[Z], -項目系列文章

總結

以上是生活随笔為你收集整理的大数据Re1的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

数据

上一篇：网络：TCP维护安全可靠机制提供的定时器
下一篇：嵌入式面试中常见的问答题（线程进程、TC