當前位置：首頁 >

使用大数据闪存打造融合数据平台

發布時間：2025/3/8 62 豆豆

生活随笔收集整理的這篇文章主要介紹了使用大数据闪存打造融合数据平台小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨著企業、服務提供商和超大型數據中心從描述性分析向預測性和規范性分析演進，結合了融合運營和分析數據管道的融合數據平臺變得日益重要。大數據閃存可讓數據處理平臺快速訪問歷史數據和實時數據流，從而以較低成本創建有效的預測模型。

隨著大數據從描述性分析（批量）向預測性（交互）和規范性（實時）分析演進，企業正在越來越多地使用串流數據源和歷史批量數據，以提高機器的學習能力并建立預測模型。簡而言之，描述性分析是為了了解事態，預測性分析是為了建立一個假設場景模型，而規范性分析是為了通過采取數據驅動型行動來影響結果。新型分析應用能夠在交易發生時實時捕獲它，并能影響其結果，從而帶來直接的商業效益。這方面的用例包括：
反洗錢欺詐分析定向營銷工業互聯網（IoT/IoE）實時生產制造醫療領域的患者數據情報SanDisk閃迪利用新型分析應用對半導體制造數據進行實時分析。從Lambda架構到SMACK

Lambda架構因其融合實時分析和批量分析的能力而深受喜愛。Lambda架構使用HDFS、Scalding和HBASE作為融合實時分析和批量數據管道的構建模塊。但是，該架構帶來的多管道復制代碼和數據的開銷，使得其難以大規模部署。

為了克服Lambda架構的局限性，必需配備一個能夠有效處理批量和實時串流的大數據管道。全新的SMACK堆?！猄cala及其Spark、Mesos、Akka、Cassandra和Kafka生態系統便旨在實現這一點。SMACK串流已成為一個用于處理批量和串流數據的有效大型平臺。

Meosphere的Infinity堆棧或MapR新近發布的Converged Data Platform等解決方案都是Lambda架構的實例。

配備SMACK（Spark、Mesos、Akka、Cassandra和Kafka）堆棧的串流架構

以下是SMARK堆棧的簡要介紹：
Spark：一個快速、通用的分布式大型數據處理引擎。Mesos：一個集群資源管理系統，在各個分布式應用之間提供高效的資源隔離和共享功能。Akka：一個工具包和運行環境，用于在JVM上創建高并發、分布式、彈性消息驅動型應用。Cassandra：一個分布式、高度可用的數據庫，旨在處理多個數據中心的大量數據。Kafka：一個高吞吐量、低時延的分布式消息系統，旨在處理實時數據流。面向融合數據平臺的大數據閃存

為了創建有效的預測模型，融合堆棧系統需要快速訪問歷史數據和實時數據流?；陂W存的數據網格可為這些新的數據驅動型架構帶來巨大效益。

2015年3月，SanDisk閃迪設立了 “大數據閃存”市場類別，推出了InfiniFlash系統，它擁有極高的容量以及卓越的性能和經濟性（源于低成本晶圓和全新的閃存尺寸規格）。

事實上，InfiniFlash系統之所以能成為融合數據平臺架構的構建模塊，其架構和性能起著至關重要的作用：
數據捕獲每秒可捕獲數百萬個事件，且無事件丟失更快的批量攝取便于擴展使用Avro或Protobuf格式存儲數據，無需ETL（提取、轉換、加載）過程通過支持Kafka等分布式消息系統消除負載數據處理能夠有效處理實時事件和批量數據輸入存儲處理，以秒和亞秒級實現時延交付數據存儲面向數據密集型工作負載的軟件定義數據構造，提供敏捷性和可擴展性可長時間存儲數個TB的數據支持高吞吐量的批量數據存儲，且滿足低時延實時查詢可處理分離的數據源和“突發性”工作負載采用無模式方式存儲數據支持HDFS和NoSQL數據庫（如Cassandra、CouchDB、MemSQL、HBase等）可借助Rackscale架構擴展至PB級極低的年故障率（AFR）可使用解聚/共享存儲提供企業就緒度、沿襲（審計日志）、合規（依法保留等）和版本控制（維護不同的時間點副本）專為來自HDFS/S3的故障、備份和補丁而設計最為經濟高效，低于/GB[1]數據查詢支持亞秒級時延的實時查詢支持批量/聚集查詢支持針對HDFS和NoSQL的查詢

使用InfiniFlash“大數據閃存”打造數據密集型融合數據平臺的三大原因

無論您是企業還是服務提供商，以下是您應該考慮使用InfiniFlash打造融合數據平臺的三大原因：

滿足捕獲、處理、存儲和查詢數據管道的所有要求

傳統的直接附加型存儲解決方案和純HDD解決方案無法提供融合數據平臺所需的大規模性能和吞吐量。此外，它們也不具備可擴展性所帶來的資本支出和運營支出效益，也不具備這些平臺所要求的敏捷性和企業就緒程度。

與傳統硬盤相比，InfiniFlash系統的性能是它們的50倍，密度是它們的5倍，可靠性是它們的4倍，而且便于向上和向外擴展，以滿足大數據應用的苛刻要求[2]?；陂W存的軟件定義數據構造可讓用戶根據需要靈活選用多種文件系統，其中包括HDFS、Spectrum Scale、Lustre和Ceph。

全球支持

InfiniFlash在全球各地得到了SanDisk閃迪及其合作伙伴的支持。InfiniFlash是TSA Net Support Community的一部分，可確保滿足嚴格的SLA協議要求。與此同時，我們的FlashStart 功能可確保其安裝順利，并提供卓越的客戶體驗。

同類最佳的生態系統

SanDisk閃迪與眾多業內領先的軟件開發者和硬件合作伙伴開展合作，通過同類最佳的生態系統獲得更多的選擇和靈活性。我們的合作伙伴包括： RedhatCeph、Nexenta、ICloudbyte以及思科、聯想、戴爾、Supermicro、Quanta等廠商。同時，我們也正與開源社區開展密切合作，并通過我們的各項事業成為貢獻者和思想領袖。（欲了解SanDisk閃迪對于開源SCST企業級特性所做出的貢獻，請點擊此處。）

結語

搭建融合數據平臺是為了滿足融合運營和分析管道的要求，以及隨后的捕獲、處理、存儲和查詢階段的存儲要求，一個基于大數據閃存的數據構造是融合平臺理想的存儲層構建模塊，可讓數據管道的每個階段都受益。

本文轉自d1net（轉載）

總結

以上是生活随笔為你收集整理的使用大数据闪存打造融合数据平台的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： MapReduce二次排序
下一篇：「原创」从马云、马化腾、李彦宏的对话，看

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

使用大数据闪存打造融合数据平台

總結