當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CSDN专訪：大数据时代下的商业存储

發布時間：2024/7/19 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 CSDN专訪：大数据时代下的商业存储小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文地址：http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop
摘要：EMC公司作為全球信息存儲及管理產品方面的率先公司，不久前。EMC宣布收購DSSD加強和鞏固了其在行業內的領導地位，日前我們有幸採訪到EMC中國的張安站。他就大數據、商業存儲、Spark等給大家分享了自己的看法。

談到大數據。張安站覺得大數據本質上是兩個根本性的問題。一個是數據非常大。怎樣存儲？另外一個是數據非常大。怎樣分析？第一個問題，對于存儲廠商來說。就是構建Scalability更好的存儲系統。來適應這個超大規模數據存儲的需求。第二就是大數據的分析，隨著以Hadoop生態環境為代表的分布式計算/?存儲集群的蓬勃發展與成熟，大數據的分析變得越來越高效和準確。原來的離線數據挖掘如今能夠做到在線，甚至通過在線挖掘在數分鐘內對用戶產生基于當前行為的推薦。

張安站，EMC中國卓越研發集團的資深project師。畢業于南開大學。畢業后增加EMC，在存儲部門擔任軟件project師。

在讀研期間，主要從事了基于手持閱讀器的在線讀物聚合的研究與實現，編碼超過30K，積累了豐富的編碼實戰經驗。

而且也研究了基于地理位置的在線廣告投放而且成功在手持閱讀器上做過原型開發。

校招時收到了百度、阿里、搜狗、EMC、?SonicWALL和創新工場等多個知名企業的offer?。而且保持了面試必過的記錄。

增加EMC后。主要負責存儲系統管理和監控的研究與開發。積累了豐富的系統調試經驗。設計實現了存儲控制協議SMIS并在系統性能調優方面積累了實戰經驗。承擔了項目組的代碼管理工作和Scrum的管理工作。

?近半年工作重心在構建下一代的商業存儲的管理框架，通過又一次設計獲得存儲系統的可靠性（Reliability）、可用性（Availability?）、可擴展性（Scalability）和性能（Performance?）得到質的提升。下個月將增加百度的網頁搜索部擔任系統架構高級研發project師，負責網頁搜索產品服務架構和數據存儲架構的設計與升級。

談到怎樣學習Hadoop和Spark，他覺得精讀源代碼是必須的。同一時候還要學會比較，另外，Scala語言是他覺得最酷的語言。

一個優秀的程序猿，肯定會喜歡Scala。

下面是對張安站的採訪實錄：

CSDN：可否介紹一下眼下從事的工作？??

張安站：當前主要工作在構建EMC中高端存儲的下一代管理控制平臺上。這是一個全新的平臺。不同與去年公布的VNX2，VNX2實際上還是分File 和Block。它們分別使用不同的CPU。物理上是隔離的。我們如今做的平臺是真正的Unified。能夠在一個節點上提供File Service， Block Service。因為採用了全新的架構。整個存儲系統的可靠性（Reliability）、可用性（Availability）、可擴展性（Scalability）和性能（Performance）得到質的提升。傳統的存儲系統擴展性是Scale-in的，做不到Scale-out。因此你能夠看到每一個系統不同的產品型號支持的最大硬盤數量是固定的。因此最大的存儲空間也是確定的。

為了擴容。不得不買很多其它的設備。這無疑增加了IT運維的成本。

我們如今關注的就是解決傳統架構的局限，適應如今云計算，大數據對存儲系統新的需求，從而使我們的產品仍然在新的環境中主導存儲系統的發展。

只是遺憾的是六月份是我在EMC工作的最后一個月。

七月初我會增加百度的網頁搜索部，擔任系統架構資深研發project師，負責網頁搜索產品服務架構和數據存儲架構的設計與升級，包含網頁抓取、海量數據處理平臺和分布式檢索系統。

也是正式開始我在職場上的大數據生涯。

對大數據的理解

CSDN：談談您對大數據的理解？

張安站：大數據。不同的人在不同的角度都會有不同的理解。

可是歸根結底，是兩個根本性的問題，一個是數據非常大。怎樣存儲？另外一個是數據非常大，怎樣分析？第一個問題，對于我們存儲廠商來說。就是構建Scalability更好的存儲系統，來適應這個超大規模數據存儲的需求。第二個問題，就是大數據的分析。隨著以Hadoop生態環境為代表的分布式計算/?存儲集群的蓬勃發展與成熟，大數據的分析變得越來越高效和準確，原來的離線數據挖掘如今能夠做到在線，甚至通過在線挖掘在數分鐘內對用戶產生基于當前行為的推薦。

因此，能夠說，這些技術的發展。也催生了很多其它的商業模式，也正在改變我們周圍的生活。

比方借助大數據分析，交通違章監控能夠使用更短的時間通知違章車輛；醫院能夠使用很多其它的用戶數據的建立更好的模型以獲得更好的治療方案；金融行業能夠基于用戶的投資行為為用戶推薦最佳的理財產品。而這些。無一不和我們的生活息息相關。大數據方興未艾，機遇與挑戰并存，讓我們這些可愛的程序猿們更好的為人民服務吧！

CSDN：?EMC 不久前收購了初創公司DSSD，您怎么看？

張安站：EMC是一個收購了或者說“融合”了非常多公司的公司。

EMC歷史上最著名的收購莫過于2003年以6億多美元收購VMware。事實上對于EMC的多次收購。從另外一個方面也反應了EMC對于行業趨勢的把握和敏感，EMC通過多次收購，不斷的加強和鞏固在行業內的領導地位，從而也影響了行業的發展趨勢。

這是EMC 繼收購閃存公司XtremIO后在閃存市場的又一舉動。事實上，2013年公布的EMC中端存儲的巔峰之作VNX Rockies也公布了VNX-F的全閃存陣列，最高的IOPS達到了110W。盡管EMC相信磁盤陣列在能夠遇見的未來仍將存在。可是也能夠從它一系列的動作能夠看出，EMC非常重視閃存市場。

收購DSSD也是這個戰略的一部分。

在EMC World 2014上宣布這個消息，足以說明對DSSD的重視。DSSD的核心團隊來自ZFS。ZFS能夠說是世界上最先進的文件系統，為什么叫ZFS，就是因為Z是最后一個英文字母。而在這之后。無需再有其它文件系統了。讓我們拭目以待。期待2015年Andy Bechtolsheim帶領的開發團隊將給市場帶來的EMC DSSD。

Andy在斯坦福讀博士時就創立了Sun。因此有足夠理由相信Andy會給閃存市場帶來驚喜。

傳統商業存儲的機遇與挑戰

CSDN：?EMC World 2014 提到了EMC 存儲產品對Open-Stack的支持，能不能談一些這方面的詳細內容？

張安站：商業的存儲系統怎樣融入到云計算的集群環境？畢竟，云計算提供了三種主要的服務。即計算資源、網絡資源和存儲資源。

EMC存儲部門關注的就是怎樣將我們的存儲產品融入到Open-Stack中，使得Open-Stack能夠無縫的使用EMC的存儲產品。因為EMC各個存儲產品的相對獨立性，不同的產品線可能都會支持Open-Stack。事實上技術上說白了就是實現一個Open-Stack Cinder的驅動，實現一些Open-Stack的API以使得Open-Stack能夠使用存儲系統上的存儲資源。

在這里不得不提的是EMC的軟件定義存儲的實現ViPR。

ViPR 2.0未來將成為其全部存儲的核心數據平臺。通過增加對OpenStack Clinder插件的支持。ViPR能夠與更廣泛的第三方存儲系統和商品驅動器兼容，EMC覺得ViPR 2.0如今能夠處理全部現有存儲容量的80%。

可是從Business Value來說。EMC對于Open-Stack的支持是為了將我們的存儲產品更好的融入Open-Stack中。使得它能夠充分利用我們的存儲服務。

事實上從這一點上來講。和Intel積極推動非常多OpenSource的項目一樣，終于的目的都是使得這些開源項目更好的執行在公司的核心的軟硬件平臺上。當然了。也不可否認，這些大公司的推動對于這些項目起到了非常積極的作用。有了大公司在人力物力的投入，這些開源項目都能在各自的領域有了更好的發展。

CSDN：傳統商業存儲的在云計算背景下的機遇與挑戰？

張安站：這個問題，不得不提一下EMC如今力推的第三平臺戰略。簡單來說。第二平臺就是傳統的數據中心。EMC已經確定了率先的地位。第三平臺是建立在移動設備、云服務、社交網絡和大數據的基礎之上。可是如今科技的發展能夠說是又一次定義了很多東西。就如EMC World 2014的主題 REDEFINE一樣。

在這次平臺轉型的過程中，注定有一些公司被淘汰；一些公司會站在新的浪潮之巔。EMC的傳統存儲部門肯定會受到影響，可是影響到底有多大誰都不敢斷言。

我們如今也是Redesign我們的產品架構。非常多模塊推倒重來，以更好的適應第三平臺的須要。

精讀源代碼是必須的

CSDN：對于學習Hadoop和Spark的同學有什么好的建議？

張安站：學習最重要的是興趣，還有激情。不能說如今什么技術熱就去學什么，那么你可能永遠在追隨這些技術，無法真正的在技術方面提升自己。從我自己學習Hadoop和Spark的經驗來說，熟讀源代碼，精讀源代碼是必須的，特別是你須要做二次開發時。當然了博客是一個非常重要的渠道，可是博主是把自己的知識進行提煉，總結形成博文的，可能他知道的一個實現的80%，可是博文可能僅僅能展現60%。

所以自己在精讀了文章后，一定要深入源代碼去精讀。去對照。

比方我學習HDFS時，每次看到一個模塊都會和我們公司的產品實現進行橫向的對照。舉個樣例來說，HDFS的server端分名字節點（NameNode）和數據節點（DataNode），而我們的產品實現分ControlPath和DataPath。所以從大的架構上來說，二者是想通的，盡管一個是分布式存儲系統，一個是中心式的存儲系統。

Spark的學習也是，而且Spark的源代碼無疑更加簡練。相信大家能夠從源代碼中學到非常多東西。大家都知道Spark是用Scala語言實現的。Scala語言是我覺得最酷的語言。

一個優秀的程序猿。肯定會喜歡Scala。

寫在最后：

在採訪中，我們能感覺到張安站的激情、睿智以及文採，正如在他的最新博文Redefine：Change in the Changing World中所說，科技的發展又一次定義了技術，影響了生活，改變了你我。

點擊張安站博客，查看很多其它技術性文章！

HDFS HA: 高可靠性分布式存儲系統解決方式的歷史演進

HDFS追本溯源：HDFS操作的邏輯流程與源代碼解析

HDFS追本溯源：租約。讀寫過程的容錯處理及NN的主要數據結構

轉載于:https://www.cnblogs.com/wzzkaifa/p/6845022.html

總結

以上是生活随笔為你收集整理的CSDN专訪：大数据时代下的商业存储的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： JavaScript之event事件
下一篇： leancloud的技术面试指南