企业数据湖构建之旅
摘要:隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的規(guī)模和類型都呈現(xiàn)一個爆炸性的增長,對于這么多類型的數(shù)據(jù),如何進行有效的管理和存儲,包括數(shù)據(jù)的分析,這是大家要面臨的一個問題。在武漢云棲大會上,阿里云高級產(chǎn)品專家吳華劍做了名為“企業(yè)數(shù)據(jù)創(chuàng)新之旅-構(gòu)建自己的數(shù)據(jù)湖”的精彩演講。
阿里云存儲產(chǎn)品系列
企業(yè)應(yīng)用構(gòu)建案例
阿里云存儲其實不光是支持互聯(lián)網(wǎng)音視頻等普通數(shù)據(jù)的訪問和讀寫,如今利用阿里云存儲穩(wěn)定、安全、可靠和高性能等的特點,結(jié)合阿里云豐富的機器學(xué)習(xí)平臺、大數(shù)據(jù)、批量計算等產(chǎn)品以及阿里云與Hadoop官方的合作,阿里云存儲可以進行離線分析、基因渲染等大規(guī)模數(shù)據(jù)的計算,滿足不同場景的數(shù)據(jù)處理需求。現(xiàn)在已經(jīng)應(yīng)用到新能源、新媒體、包括點播、直播等應(yīng)用場景。下面是兩個企業(yè)應(yīng)用構(gòu)建的例子:
1.新媒體內(nèi)容推薦系統(tǒng) ? 用戶的訪問日志,包括手機app、應(yīng)用服務(wù)上收集的日志、新聞閱讀的記錄都可以導(dǎo)入到OSS上,滿足海量存儲的需求。同時Hadoop官方也支持OSS存儲的應(yīng)用,因此用戶可以基于Hadoop生態(tài)的應(yīng)用去搭建像離線分析的系統(tǒng),并且可以利用機器學(xué)習(xí)進行用戶興趣的訓(xùn)練,訓(xùn)練完的模型數(shù)據(jù)也可以導(dǎo)入到OSS上面,形成數(shù)據(jù)處理的閉環(huán),當(dāng)用戶用完整個架構(gòu)系統(tǒng)之后,整個數(shù)據(jù)存儲成本降低了50%以上。
2.批處理(在線視頻日志)
? 類似短視頻的在線視頻應(yīng)用,如何保持競爭力呢?用戶需要對終端用戶訪問的一些視頻,做一些大數(shù)據(jù)的挖掘和分析,不斷地去改進自己的產(chǎn)品設(shè)計。用戶將日志數(shù)據(jù)上傳到OSS上面之后,可以通過阿里云的Hadoop離線分析系統(tǒng)做分析,同時可以基于Hadoop應(yīng)用去搭建集群,進行數(shù)據(jù)交互分析。由于用戶每天產(chǎn)生的海量訪問日志非常大,可能經(jīng)過一段時間以后這個數(shù)據(jù)就沒那么熱了,用戶不需要經(jīng)常去分析和處理它,那用戶可以通過OSS生命周期管理功能對數(shù)據(jù)進行自動歸檔。整個用戶的數(shù)據(jù)采集、存儲、消費和自動歸檔等流程都可以在OSS上處理。
云存儲技術(shù)引擎 ? 阿里云存儲針對數(shù)據(jù)進行計算和分析,在近期又取得了巨大的進展。首先是阿里云對于文件系統(tǒng)家族,推出了CPFS并行文件系統(tǒng),這個產(chǎn)品阿里云正在公測,而且有些做科研的客戶正在使用這個產(chǎn)品。CPFS并行文件系統(tǒng)有一個非常明顯的特點,它可以極大地提高阿里云單用戶的吞吐。同時阿里云和戰(zhàn)略合作伙伴Intel一起在Hadoop社區(qū)里面,針對Hadoop的應(yīng)用訪問OSS做了大量的優(yōu)化。Hadoop在訪問OSS的時候,阿里云在Hadoop的客戶端進行了多線程預(yù)讀的優(yōu)化,同時在整個數(shù)據(jù)寫入到OSS的時候,阿里云也進行了異步的性能提升。另外對于元數(shù)據(jù)的操作,阿里云也進行了大量的優(yōu)化。當(dāng)整個系統(tǒng)優(yōu)化完之后,阿里云進行了一個TPC DS測試,阿里云測試了200G的數(shù)據(jù)集并與其他廠商進行對比,阿里云OSS的運行效率提升了15%左右,可以為用戶節(jié)省15%的計算資源,不但提升了業(yè)務(wù)的效率,而且大大降低了成本。
? 同時阿里云OSS在服務(wù)端也進行了大量的技術(shù)優(yōu)化,最近阿里云會提供一個服務(wù)端預(yù)讀的功能,阿里云面向像Hadoop的大數(shù)據(jù)分析、機器學(xué)習(xí)等場景會進行優(yōu)化,會在近期上線,讓大家使用。關(guān)于服務(wù)端優(yōu)化,現(xiàn)在也已經(jīng)有客戶在使用,而且運行效率提升了35%以上,對客戶的業(yè)務(wù)有很大的幫助。另外OSS select現(xiàn)在也開始公測,原來的數(shù)據(jù)存儲到OSS之后,當(dāng)讀取數(shù)據(jù)的時候需要把整個數(shù)據(jù)都讀取出來。比如搭一個spark應(yīng)用的時候,需要把整個數(shù)據(jù)讀取出來之后再去做一些分析和處理,現(xiàn)在可以使用OSS select功能,只要使用簡單的SQL語句,就可以選取需要的內(nèi)容,大大地減少運行的時間。阿里云也做了個基于OSS select的測試,整個運行時間從78秒減少到11秒,性能提升了600%。阿里云最近推出的DataLakeAnalytics產(chǎn)品,它可以支持對OSS上的產(chǎn)品做查詢分析,將OSS上存儲的CSV、TEXT、JSON和一些鏈?zhǔn)酱鎯Φ臄?shù)據(jù),可以使用DataLakeAnalytics做查詢分析,這個產(chǎn)品兼容標(biāo)準(zhǔn)SQL,包括JDBC、ODBC的標(biāo)準(zhǔn),可以幫助大家快速去搭建一個查詢、分析的平臺,可以減少時間,提升研發(fā)效率。
以下是OSS select和DataLakeAnalytics的公測鏈接,大家可以掃描二維碼去申請公測。
?
本文由云棲志愿小組黃小凡整理
總結(jié)
- 上一篇: [react] 请说说react中Por
- 下一篇: cad插件_CAD插件燕秀工具箱2.81