日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

kudu大量数据更新_i2Stream提升异构数据库数据的互联互通

發(fā)布時(shí)間:2024/9/18 数据库 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 kudu大量数据更新_i2Stream提升异构数据库数据的互联互通 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。”? “大數(shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。2009年甲型H1N1流感爆發(fā),有評(píng)論家警告,可能會(huì)出現(xiàn)類似1918年西班牙流感般大規(guī)模流行,影響5億人口并奪走數(shù)千萬人性命。在甲型H1N1流感爆發(fā)前幾周,互聯(lián)網(wǎng)巨頭谷歌公司在《自然》雜志上發(fā)表的一篇論文,引起了業(yè)內(nèi)的廣泛關(guān)注。文中解釋了谷歌為什么能夠準(zhǔn)確預(yù)測流感的傳播:通過觀察人們在網(wǎng)上的搜索記錄來完成這個(gè)預(yù)測,而這種方法以前一直被忽略。谷歌保存了多年來所有的搜索記錄,而且每天都會(huì)接受來自全球超過30億條的搜索指令。如此龐大的數(shù)據(jù)資源足以支撐和幫助谷歌完成預(yù)測。大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會(huì)被認(rèn)為已經(jīng)沒有用處了。但在大數(shù)據(jù)時(shí)代,數(shù)據(jù)本身發(fā)生了變化:
  • 數(shù)據(jù)更多,不是隨機(jī)樣本,而是全體數(shù)據(jù)。

  • 數(shù)據(jù)更雜,不是精確性,而是混雜性。

  • 數(shù)據(jù)更好,不求因果關(guān)系,但求相關(guān)聯(lián)系。

每個(gè)人都可以獲取大量數(shù)據(jù)信息,而在數(shù)據(jù)洪流席卷全球的大數(shù)據(jù)時(shí)代,人類存儲(chǔ)信息量的增長速度比世界經(jīng)濟(jì)的增長速度快4倍。到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到8年前的44倍,國際數(shù)據(jù)公司IDC給出了詳細(xì)的數(shù)字:全球數(shù)據(jù)總量2020年將達(dá)到40ZB,2025年將達(dá)到175ZB。面對(duì)海量數(shù)據(jù),迅猛發(fā)展的數(shù)據(jù)處理能力依然捉襟見肘,在入倉速度與分析速率相悖而生的大數(shù)據(jù)體系架構(gòu)下,面臨兩大考驗(yàn):傳統(tǒng)數(shù)據(jù)管理要如何完成架構(gòu)轉(zhuǎn)型,怎樣尋求入倉速度與分析速率平衡點(diǎn)。圖1:大數(shù)據(jù)應(yīng)用大數(shù)據(jù)分析的基礎(chǔ)是大量可信數(shù)據(jù),數(shù)據(jù)同步工具可以為大數(shù)據(jù)分析平臺(tái)提供源自實(shí)際業(yè)務(wù)的持續(xù)傳送的可信數(shù)據(jù)。大數(shù)據(jù)平臺(tái)匯聚了源自不同數(shù)據(jù)源的數(shù)據(jù),因此可以從多維度、多視角實(shí)現(xiàn)數(shù)據(jù)采集、整合、清理、治理、分析,從而實(shí)現(xiàn)數(shù)據(jù)決策、趨勢分析和數(shù)據(jù)可視化展示等。隨著大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)同步的需求和頻率也在提高,在了解基于日志抽取分析的數(shù)據(jù)流實(shí)時(shí)同步技術(shù)之前,先看一看數(shù)據(jù)同步的分類及基礎(chǔ)知識(shí)點(diǎn):離線同步和在線同步:離線同步是指生產(chǎn)庫不對(duì)外提供服務(wù),數(shù)據(jù)不會(huì)發(fā)生變化。在線同步要復(fù)雜得多,數(shù)據(jù)庫會(huì)一直對(duì)應(yīng)用層系統(tǒng)提供服務(wù),同步工具需要在數(shù)據(jù)不斷變化的情況下,將變化的數(shù)據(jù)同步到目的庫。如增刪、更新、插入及DDL操作等。準(zhǔn)實(shí)時(shí)同步、實(shí)時(shí)同步、非實(shí)時(shí)同步:準(zhǔn)實(shí)時(shí)接近于兩邊數(shù)據(jù)庫同時(shí)操作,但會(huì)有延時(shí);實(shí)時(shí)同步是兩邊都是寫操作;非實(shí)時(shí)一般強(qiáng)調(diào)數(shù)據(jù)庫不對(duì)外提供服務(wù)時(shí),再進(jìn)行數(shù)據(jù)同步。通過日志、時(shí)間戳、全表拷貝的技術(shù)同步:日志分析是通過分析源數(shù)據(jù)庫日志,捕獲源數(shù)據(jù)庫中變化的數(shù)據(jù),一般用于大型數(shù)據(jù)源,如Oracle;時(shí)間戳是在同步的源表里有時(shí)間戳字段,當(dāng)數(shù)據(jù)變化時(shí),時(shí)間戳記錄變化的時(shí)間;全表拷貝是定時(shí)清空目的數(shù)據(jù)源,然后將源庫數(shù)據(jù)全盤拷貝到目的數(shù)據(jù)源,實(shí)時(shí)性不高。數(shù)據(jù)倉庫技術(shù)ETL(Extract-Transform-Load的縮寫):描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目標(biāo)端的過程。ETL常用在數(shù)據(jù)倉庫,但其對(duì)象并不限于數(shù)據(jù)倉庫。ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù),ETL是商業(yè)智能(BI)項(xiàng)目重要的一個(gè)環(huán)節(jié)。JSON(JavaScript Object Notation) 文件:一種輕量級(jí)的數(shù)據(jù)交換格式文件,易于人閱讀和編寫,也易于機(jī)器解析和生成。JSON采用完全獨(dú)立于語言的文本格式,但是也使用了類似于C語言家族的習(xí)慣(包括C、C++、C#、Java、JavaScript、Perl、Python等)。這些特性使JSON成為理想的數(shù)據(jù)交換語言。JSON是Kafka平臺(tái)可識(shí)別的格式文件。Kafka流處理平臺(tái):Kafka是一種分布式消息隊(duì)列,用于發(fā)布和訂閱消息,可作為中間件將數(shù)據(jù)匯聚到數(shù)據(jù)湖、大數(shù)據(jù)應(yīng)用和實(shí)時(shí)流分析系統(tǒng)中。Kafka具大容量存儲(chǔ)和快速讀寫兩大特點(diǎn)。Kafka的數(shù)據(jù)處理速度快可以通過批處理和壓縮記錄有效地使用IO。對(duì)于數(shù)據(jù)庫數(shù)據(jù),Kafka具備兩大功能:一是異構(gòu)數(shù)據(jù)庫的解耦,實(shí)現(xiàn)大數(shù)據(jù)量的數(shù)據(jù)緩沖;二是異構(gòu)數(shù)據(jù)庫的格式轉(zhuǎn)化,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)傳輸。數(shù)據(jù)同步工具抽取數(shù)據(jù)并做轉(zhuǎn)換、加載是數(shù)據(jù)進(jìn)一步聚合、分析的基礎(chǔ)。數(shù)據(jù)同步技術(shù)的發(fā)展一方面會(huì)提高同步過程的可靠性、可視化,增強(qiáng)應(yīng)對(duì)異常的能力;一方面也會(huì)和人工智能的發(fā)展相結(jié)合,以提供深層次數(shù)據(jù)處理和實(shí)現(xiàn)數(shù)據(jù)事件的智能化響應(yīng)。基于前沿的數(shù)據(jù)庫數(shù)據(jù)同步分析技術(shù),英方軟件推出了一種專注于面向預(yù)寫日志抽取分析的數(shù)據(jù)庫同步技術(shù),可以從主流的結(jié)構(gòu)化數(shù)據(jù)庫獲取數(shù)據(jù)的源頭保證數(shù)據(jù)的完整性、可靠性,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的提取和復(fù)制,并實(shí)時(shí)將數(shù)據(jù)傳輸?shù)終afka等消息隊(duì)列。該技術(shù)充當(dāng)了Kafka Producer的角色,從關(guān)系型數(shù)據(jù)庫解析生產(chǎn)數(shù)據(jù),以JSON格式實(shí)時(shí)向Kafka平臺(tái)寫入,提供適用于大數(shù)據(jù)環(huán)境的高性能、容錯(cuò)、易用和靈活的實(shí)時(shí)數(shù)據(jù)流平臺(tái),幫助客戶擴(kuò)展實(shí)時(shí)數(shù)據(jù)集成架構(gòu)到大數(shù)據(jù)系統(tǒng)而不會(huì)影響生產(chǎn)系統(tǒng)的性能。圖2:i2Stream應(yīng)用架構(gòu)和場景圖3是關(guān)系型數(shù)據(jù)庫Oracle到Kudu的數(shù)據(jù)抽取→轉(zhuǎn)換→轉(zhuǎn)載的過程,先通過數(shù)據(jù)庫復(fù)制產(chǎn)品i2Active將源端數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)解析、提取后, 通過i2Stream進(jìn)行對(duì)接、轉(zhuǎn)換,并發(fā)送給消息隊(duì)列,最終寫入HDFS。在此基礎(chǔ)上將數(shù)據(jù)同步到Kudu/HBase等數(shù)據(jù)倉庫。圖3:數(shù)據(jù)從Oracle到Kudu的過程基于該技術(shù)研發(fā)的管理軟件i2Stream,主要功能包括:
  • 支持結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)源全量和實(shí)時(shí)增量快速加載到各類Hadoop(hdfs、Hive、HBase、Kudu)、Kafka、關(guān)系型數(shù)據(jù)庫等目標(biāo)庫;

  • 支持無侵入實(shí)時(shí)增量數(shù)據(jù)獲取功能。功能支持的源端數(shù)據(jù)庫包括Oracle(RAC)、SQLServer、MySQL、MariaDB、PostgreSQL、GaussDB、DB2等;

  • 目標(biāo)庫支持關(guān)系型數(shù)據(jù)和Hadoop(hdfs、Hive、HBase、Kudu)、Kafka等多種大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫;

  • 支持表級(jí)、實(shí)例級(jí)的數(shù)據(jù)過濾和轉(zhuǎn)換;

  • 支持源數(shù)據(jù)庫一對(duì)多分發(fā)到不同的目標(biāo)庫中,支持源庫多對(duì)一匯聚到同一個(gè)目標(biāo)庫;?

  • 采用多線程流處理技術(shù),數(shù)據(jù)轉(zhuǎn)發(fā)性能高,秒級(jí)延時(shí);

  • 支持近實(shí)時(shí)大數(shù)據(jù)入倉(Hive),Hive的批量裝載速度達(dá)到近萬條;

  • 采用B/S圖形界面配置,簡單易用。

相比其他數(shù)據(jù)流復(fù)制技術(shù)產(chǎn)品,i2Stream的優(yōu)勢在于可以提供較高的數(shù)據(jù)同步性能、圖形化管理界面、可為客戶提供系統(tǒng)監(jiān)控API,客戶可以自行整合監(jiān)控?cái)?shù)據(jù)到統(tǒng)一的管理平臺(tái)。可以為客戶提供數(shù)據(jù)驗(yàn)證手段,如同步后數(shù)據(jù)的比對(duì)、修復(fù)。可以為客戶提供定制開發(fā)滿足用戶的特定需求等。云和大數(shù)據(jù)時(shí)代,除了數(shù)據(jù)超多之外,還面臨著系統(tǒng)超復(fù)雜(Gartner:2020年全球企業(yè)超過6成將實(shí)施雙模IT,75%企業(yè)將應(yīng)用基于容器的云原生架構(gòu))和環(huán)境超異構(gòu)(RightScale:84%為多云環(huán)境,其中58%為混合云環(huán)境)的挑戰(zhàn),傳統(tǒng)的大數(shù)據(jù)復(fù)制技術(shù)正在經(jīng)歷架構(gòu)變化帶來的轉(zhuǎn)型陣痛,英方新的大數(shù)據(jù)復(fù)制技術(shù)在以往的經(jīng)驗(yàn)上,適應(yīng)了兩大應(yīng)用場景:
  • 異構(gòu)數(shù)據(jù)庫數(shù)據(jù)的實(shí)時(shí)流通、交互,幫助用戶完成核心數(shù)據(jù)的遷移、同步。

  • 幫助證券、銀行、支付平臺(tái)實(shí)現(xiàn)大數(shù)據(jù)從數(shù)據(jù)庫傳輸?shù)酱髷?shù)據(jù)平臺(tái),再根據(jù)業(yè)務(wù)需要,轉(zhuǎn)換成各類報(bào)表數(shù)據(jù),為各類商業(yè)智能(BI)項(xiàng)目服務(wù)。

圖4:大數(shù)據(jù)應(yīng)用于金融系統(tǒng)大數(shù)據(jù)技術(shù)正在發(fā)生深刻的變化,任何IT基礎(chǔ)架構(gòu)的變化和創(chuàng)新,都會(huì)引發(fā)新一輪的技術(shù)競賽,在日益變化的客戶場景中,沒有最好的技術(shù),只有合適的選擇,用戶因此需要根據(jù)自身的技術(shù)喜好和業(yè)務(wù)需求,做出正確的決策。?— ?推薦閱讀 ?—海量政務(wù)系統(tǒng)上云,成就云上天府之城2020-05-29大數(shù)據(jù)大作為|i2Stream入選中國軟件協(xié)會(huì)2019創(chuàng)新產(chǎn)品2019-08-28為什么金融行業(yè)都愛大數(shù)據(jù)2019-04-12關(guān)于英方英方軟件是一家專注于數(shù)據(jù)復(fù)制的基礎(chǔ)軟件企業(yè),致力于動(dòng)態(tài)文件復(fù)制、數(shù)據(jù)庫復(fù)制等技術(shù)的研發(fā)與推廣,產(chǎn)品廣泛應(yīng)用于災(zāi)備、數(shù)據(jù)保護(hù)、云數(shù)據(jù)管理等領(lǐng)域,以確保企業(yè)的數(shù)據(jù)安全和業(yè)務(wù)連續(xù)性。多年來,秉承“讓世界早有準(zhǔn)備”的使命,英方旨在賦能企業(yè)改變傳統(tǒng)的數(shù)據(jù)及業(yè)務(wù)保護(hù)方式,在災(zāi)備、大數(shù)據(jù)管理、文件共享和云服務(wù)等領(lǐng)域?yàn)榭蛻籼峁└咝А⒈憬荨⒏挥懈偁幜Φ漠a(chǎn)品及服務(wù),以開放的姿態(tài),與生態(tài)伙伴通力合作,為用戶的數(shù)字化轉(zhuǎn)型之路保駕護(hù)航。英方人堅(jiān)持激情、專注、誠信、勤奮的價(jià)值觀,釋放組織活力,激發(fā)個(gè)人潛能,自主研發(fā),圍繞客戶需求,持續(xù)為客戶創(chuàng)造價(jià)值,推動(dòng)數(shù)字世界不斷向前發(fā)展。·?咨詢:400-0078-655·?官網(wǎng):www.info2soft.com

總結(jié)

以上是生活随笔為你收集整理的kudu大量数据更新_i2Stream提升异构数据库数据的互联互通的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。