當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

企业数据湖构建之旅

發(fā)布時間：2023/12/9 编程问答 62 豆豆

生活随笔收集整理的這篇文章主要介紹了企业数据湖构建之旅小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要：隨著互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)的規(guī)模和類型都呈現(xiàn)一個爆炸性的增長，對于這么多類型的數(shù)據(jù)，如何進行有效的管理和存儲，包括數(shù)據(jù)的分析，這是大家要面臨的一個問題。在武漢云棲大會上，阿里云高級產(chǎn)品專家吳華劍做了名為“企業(yè)數(shù)據(jù)創(chuàng)新之旅-構(gòu)建自己的數(shù)據(jù)湖”的精彩演講。
阿里云存儲產(chǎn)品系列

? 隨著互聯(lián)網(wǎng)的發(fā)展，整個云存儲數(shù)據(jù)量的規(guī)模呈爆炸性的增長，包括日志型、交易、應(yīng)用等數(shù)據(jù)，而且數(shù)據(jù)類型也越來越豐富。面對這樣的需求，阿里云存儲推出了一系列的云數(shù)據(jù)庫類型，包括塊存儲、文件存儲、對象存儲、OSS歸檔存儲和表格存儲等。對于傳統(tǒng)企業(yè)上云，阿里云也推出了面向混合云的產(chǎn)品，比如混合云存儲陣列、容災(zāi)備份一體機、備份服務(wù)、閃電立方等產(chǎn)品。阿里云有這么全面的產(chǎn)品家族，那是什么支撐著呢？其實是因為阿里云有自研的分布式存儲系統(tǒng)：盤古高性能存儲引擎。目前盤古的存儲不僅支撐阿里云公有云上的存儲產(chǎn)品，也是阿里巴巴集團內(nèi)部，像天貓、淘寶、螞蟻金服等各類服務(wù)存儲的基石。針對于面向金融、人工智能、能源、制造業(yè)等各個場景的低延時到高吞吐的存儲需求，阿里云都有相應(yīng)的產(chǎn)品類型。 ? 在整個企業(yè)數(shù)據(jù)湖的構(gòu)建過程當(dāng)中，從數(shù)據(jù)的采集到數(shù)據(jù)存儲再到分析和消費，其實是有分多個階段的，在這多個階段里面，阿里云推出了一系列的解決方案。例如在數(shù)據(jù)采集方面，阿里云可以支持應(yīng)用程序數(shù)據(jù)、日志數(shù)據(jù)、基因數(shù)據(jù)、流失的數(shù)據(jù)等等。另外阿里云推出了阿里云日志存儲服務(wù)，OSS也支持像開源日志導(dǎo)入的服務(wù)，同時針對IoT的數(shù)據(jù)也有像IoT、DataHub這樣的數(shù)據(jù)采集的產(chǎn)品。在存儲方面，阿里云推出了對象存儲，可以支持海量的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)存儲，同時OSS也是Hadoop官方支持的默認存儲類型，這也是中國唯一一家被Hadoop官方支持的存儲產(chǎn)品，用戶的Hadoop應(yīng)用可以完全不改任何代碼去處理OSS上的數(shù)據(jù)。同時阿里云的表格存儲，能夠非常好的支持像IoT這樣的流失數(shù)據(jù)的存儲。在整個數(shù)據(jù)湖構(gòu)建的采集、存儲、消費等整個流程，阿里云都提供了相應(yīng)的解決方案，滿足大家對數(shù)據(jù)湖的構(gòu)建要求。
企業(yè)應(yīng)用構(gòu)建案例
阿里云存儲其實不光是支持互聯(lián)網(wǎng)音視頻等普通數(shù)據(jù)的訪問和讀寫，如今利用阿里云存儲穩(wěn)定、安全、可靠和高性能等的特點，結(jié)合阿里云豐富的機器學(xué)習(xí)平臺、大數(shù)據(jù)、批量計算等產(chǎn)品以及阿里云與Hadoop官方的合作，阿里云存儲可以進行離線分析、基因渲染等大規(guī)模數(shù)據(jù)的計算，滿足不同場景的數(shù)據(jù)處理需求。現(xiàn)在已經(jīng)應(yīng)用到新能源、新媒體、包括點播、直播等應(yīng)用場景。下面是兩個企業(yè)應(yīng)用構(gòu)建的例子：
1.新媒體內(nèi)容推薦系統(tǒng) ? 用戶的訪問日志，包括手機app、應(yīng)用服務(wù)上收集的日志、新聞閱讀的記錄都可以導(dǎo)入到OSS上，滿足海量存儲的需求。同時Hadoop官方也支持OSS存儲的應(yīng)用，因此用戶可以基于Hadoop生態(tài)的應(yīng)用去搭建像離線分析的系統(tǒng)，并且可以利用機器學(xué)習(xí)進行用戶興趣的訓(xùn)練，訓(xùn)練完的模型數(shù)據(jù)也可以導(dǎo)入到OSS上面，形成數(shù)據(jù)處理的閉環(huán)，當(dāng)用戶用完整個架構(gòu)系統(tǒng)之后，整個數(shù)據(jù)存儲成本降低了50%以上。
2.批處理（在線視頻日志）
? 類似短視頻的在線視頻應(yīng)用，如何保持競爭力呢？用戶需要對終端用戶訪問的一些視頻，做一些大數(shù)據(jù)的挖掘和分析，不斷地去改進自己的產(chǎn)品設(shè)計。用戶將日志數(shù)據(jù)上傳到OSS上面之后，可以通過阿里云的Hadoop離線分析系統(tǒng)做分析，同時可以基于Hadoop應(yīng)用去搭建集群，進行數(shù)據(jù)交互分析。由于用戶每天產(chǎn)生的海量訪問日志非常大，可能經(jīng)過一段時間以后這個數(shù)據(jù)就沒那么熱了，用戶不需要經(jīng)常去分析和處理它，那用戶可以通過OSS生命周期管理功能對數(shù)據(jù)進行自動歸檔。整個用戶的數(shù)據(jù)采集、存儲、消費和自動歸檔等流程都可以在OSS上處理。
云存儲技術(shù)引擎 ? 阿里云存儲針對數(shù)據(jù)進行計算和分析，在近期又取得了巨大的進展。首先是阿里云對于文件系統(tǒng)家族，推出了CPFS并行文件系統(tǒng)，這個產(chǎn)品阿里云正在公測，而且有些做科研的客戶正在使用這個產(chǎn)品。CPFS并行文件系統(tǒng)有一個非常明顯的特點，它可以極大地提高阿里云單用戶的吞吐。同時阿里云和戰(zhàn)略合作伙伴Intel一起在Hadoop社區(qū)里面，針對Hadoop的應(yīng)用訪問OSS做了大量的優(yōu)化。Hadoop在訪問OSS的時候，阿里云在Hadoop的客戶端進行了多線程預(yù)讀的優(yōu)化，同時在整個數(shù)據(jù)寫入到OSS的時候，阿里云也進行了異步的性能提升。另外對于元數(shù)據(jù)的操作，阿里云也進行了大量的優(yōu)化。當(dāng)整個系統(tǒng)優(yōu)化完之后，阿里云進行了一個TPC DS測試，阿里云測試了200G的數(shù)據(jù)集并與其他廠商進行對比，阿里云OSS的運行效率提升了15%左右，可以為用戶節(jié)省15%的計算資源，不但提升了業(yè)務(wù)的效率，而且大大降低了成本。
? 同時阿里云OSS在服務(wù)端也進行了大量的技術(shù)優(yōu)化，最近阿里云會提供一個服務(wù)端預(yù)讀的功能，阿里云面向像Hadoop的大數(shù)據(jù)分析、機器學(xué)習(xí)等場景會進行優(yōu)化，會在近期上線，讓大家使用。關(guān)于服務(wù)端優(yōu)化，現(xiàn)在也已經(jīng)有客戶在使用，而且運行效率提升了35%以上，對客戶的業(yè)務(wù)有很大的幫助。另外OSS select現(xiàn)在也開始公測，原來的數(shù)據(jù)存儲到OSS之后，當(dāng)讀取數(shù)據(jù)的時候需要把整個數(shù)據(jù)都讀取出來。比如搭一個spark應(yīng)用的時候，需要把整個數(shù)據(jù)讀取出來之后再去做一些分析和處理，現(xiàn)在可以使用OSS select功能，只要使用簡單的SQL語句，就可以選取需要的內(nèi)容，大大地減少運行的時間。阿里云也做了個基于OSS select的測試，整個運行時間從78秒減少到11秒，性能提升了600%。阿里云最近推出的DataLakeAnalytics產(chǎn)品，它可以支持對OSS上的產(chǎn)品做查詢分析，將OSS上存儲的CSV、TEXT、JSON和一些鏈?zhǔn)酱鎯Φ臄?shù)據(jù)，可以使用DataLakeAnalytics做查詢分析，這個產(chǎn)品兼容標(biāo)準(zhǔn)SQL，包括JDBC、ODBC的標(biāo)準(zhǔn)，可以幫助大家快速去搭建一個查詢、分析的平臺，可以減少時間，提升研發(fā)效率。
以下是OSS select和DataLakeAnalytics的公測鏈接，大家可以掃描二維碼去申請公測。
?

本文由云棲志愿小組黃小凡整理

總結(jié)

以上是生活随笔為你收集整理的企业数据湖构建之旅的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [react] 请说说react中Por
下一篇： cad插件_CAD插件燕秀工具箱2.81

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

企业数据湖构建之旅

總結(jié)