日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

流式计算中为什么需要时间戳和WaterMark

發(fā)布時間:2023/12/31 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 流式计算中为什么需要时间戳和WaterMark 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

可能很多從機器學(xué)習(xí)/深度學(xué)習(xí)轉(zhuǎn)向?qū)崟r計算的人會有這樣一種困惑?

我們?yōu)樯缎枰獣r間戳/WaterMark

首先,EventTime來自時間戳,以及最終構(gòu)成了WaterMark,這個就不展開說了,屬于基本概念。

?

我們回顧下:

我們對數(shù)據(jù)進行分布式集群分析的時候,很多時候,都是一股腦兒丟入訓(xùn)練框架,我們常常不care這個數(shù)據(jù)發(fā)生的時間點。

?

但是因為在集群的多個節(jié)點中,slave和master之間的延時我們是不可控制的,并且我們在數(shù)倉的終端有出報表的需要。

如果因為節(jié)點之間某些網(wǎng)絡(luò)IO的物理延遲,導(dǎo)致先發(fā)生的數(shù)據(jù),最后才到,顯然對我們最終的報表是有影響的。

因為報表是很看重時間段的。

報表如果要求前面三分鐘的數(shù)據(jù)做個aggregate,但是有條數(shù)據(jù)在集群節(jié)點傳輸時由于網(wǎng)路物理延遲,遲到了,還不帶時間戳,那么顯然這個時候報表內(nèi)容就會由于這條遲到且因為不帶時間戳導(dǎo)致無法檢測的數(shù)據(jù),報表的展示出現(xiàn)了錯誤。

?

所以水位線其實是為了實時性和準(zhǔn)確性之間做一個折中,

如果沒有水位線會咋樣呢?

來晚的數(shù)據(jù),如果為了準(zhǔn)確性等明天再展示,就失去“實時”的意義了。

所以基于水印設(shè)置一個容忍值,遲到的數(shù)據(jù)去側(cè)邊流輸出到log中,是比較好的一種折中方式。

?

?

?

總結(jié)

以上是生活随笔為你收集整理的流式计算中为什么需要时间戳和WaterMark的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。