【大数据】大数据的特点
數(shù)據(jù)量大
根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)。
人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。
數(shù)據(jù)量的量級:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
除了1Byte=8bit以外,全是210=10242^{10}=1024210=1024進(jìn)制。
數(shù)據(jù)類型繁多
大數(shù)據(jù)是由結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)組成的。
- 非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報(bào)表、圖像和音頻/視頻信息等等。[1]
- 和普通純文本相比,半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,OEM(Object exchange Model)是一種典型的半結(jié)構(gòu)化數(shù)據(jù)模型。[2]
- 結(jié)構(gòu)化數(shù)據(jù),簡單來說就是數(shù)據(jù)庫。結(jié)合到典型場景中更容易理解,比如企業(yè)ERP、財(cái)務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫;教育一卡通;政府行政審批;其他核心數(shù)據(jù)庫等。[3]
20%的結(jié)構(gòu)化數(shù)據(jù),存儲在數(shù)據(jù)庫中;剩余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),日志文件、機(jī)器數(shù)據(jù)等又占據(jù)非結(jié)構(gòu)化數(shù)據(jù)的90%。
處理速度快
從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少。
1秒定律是互聯(lián)網(wǎng)進(jìn)入DT時代對數(shù)據(jù)處理速度的要求。當(dāng)然并非嚴(yán)格的1秒,只是秒級的時間內(nèi)給出結(jié)果,這也是大數(shù)據(jù)技術(shù)有別于傳統(tǒng)數(shù)據(jù)技術(shù)的重要一點(diǎn), 時間太長,就失去意義了。這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。[4]
價值密度低,商業(yè)價值高
以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價值。
總結(jié)
以上是生活随笔為你收集整理的【大数据】大数据的特点的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 攀爬者(洛谷P5143题题解,Java语
- 下一篇: 【JVM】JVM指令集总结