日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

批处理和流处理

發(fā)布時(shí)間:2025/5/22 编程问答 66 豆豆
生活随笔 收集整理的這篇文章主要介紹了 批处理和流处理 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Reference

[1]?https://www.jianshu.com/p/5cc07eae1a0c

批處理?Batch Processing

批處理在大數(shù)據(jù)世界有著悠久的歷史。批處理主要操作大容量靜態(tài)數(shù)據(jù)集,并在計(jì)算過程完成后返回結(jié)果。

批處理模式中使用的數(shù)據(jù)集通常符合下列特征:

  • 有界:批處理數(shù)據(jù)集代表數(shù)據(jù)的有限集合

  • 持久:數(shù)據(jù)通常始終存儲(chǔ)在某種類型的持久存儲(chǔ)位置中

  • 大量:批處理操作通常是處理極為海量數(shù)據(jù)集的唯一方法

批處理非常適合需要訪問全套記錄才能完成的計(jì)算工作。例如在計(jì)算總數(shù)和平均數(shù)時(shí),必須將數(shù)據(jù)集作為一個(gè)整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計(jì)算進(jìn)行過程中數(shù)據(jù)維持自己的狀態(tài)。

需要處理大量數(shù)據(jù)的任務(wù)通常最適合用批處理操作進(jìn)行處理。無論直接從持久存儲(chǔ)設(shè)備處理數(shù)據(jù)集,或首先將數(shù)據(jù)集載入內(nèi)存,批處理系統(tǒng)在設(shè)計(jì)過程中就充分考慮了數(shù)據(jù)的量,可提供充足的處理資源。由于批處理在應(yīng)對(duì)大量持久數(shù)據(jù)方面的表現(xiàn)極為出色,因此經(jīng)常被用于對(duì)歷史數(shù)據(jù)進(jìn)行分析。

大量數(shù)據(jù)的處理需要付出大量時(shí)間,因此批處理不適合對(duì)處理時(shí)間要求較高的場(chǎng)合。

Apache Hadoop是代表性的批處理框架。

流處理 Stream Processing

流處理系統(tǒng)會(huì)對(duì)隨時(shí)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無需針對(duì)整個(gè)數(shù)據(jù)集執(zhí)行操作,而是對(duì)通過系統(tǒng)傳輸?shù)拿總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作。

流處理中的數(shù)據(jù)集是“無邊界”的,這就產(chǎn)生了幾個(gè)重要的影響:

  • 完整數(shù)據(jù)集只能代表截至目前已經(jīng)進(jìn)入到系統(tǒng)中的數(shù)據(jù)總量。

  • 工作數(shù)據(jù)集也許更相關(guān),在特定時(shí)間只能代表某個(gè)單一數(shù)據(jù)項(xiàng)。

  • 處理工作是基于事件的,除非明確停止否則沒有“盡頭”。處理結(jié)果立刻可用,并會(huì)隨著新數(shù)據(jù)的抵達(dá)繼續(xù)更新。

流處理系統(tǒng)可以處理幾乎無限量的數(shù)據(jù),但同一時(shí)間只能處理一條(真正的流處理)或很少量(微批處理,Micro-batch Processing)數(shù)據(jù),不同記錄間只維持最少量的狀態(tài)。雖然大部分系統(tǒng)提供了用于維持某些狀態(tài)的方法,但流處理主要針對(duì)副作用更少,更加功能性的處理(Functional processing)進(jìn)行優(yōu)化。

功能性操作主要側(cè)重于狀態(tài)或副作用有限的離散步驟。針對(duì)同一個(gè)數(shù)據(jù)執(zhí)行同一個(gè)操作會(huì)或略其他因素產(chǎn)生相同的結(jié)果,此類處理非常適合流處理,因?yàn)椴煌?xiàng)的狀態(tài)通常是某些困難、限制,以及某些情況下不需要的結(jié)果的結(jié)合體。因此雖然某些類型的狀態(tài)管理通常是可行的,但這些框架通常在不具備狀態(tài)管理機(jī)制時(shí)更簡單也更高效。

此類處理非常適合某些類型的工作負(fù)載。有近實(shí)時(shí)處理需求的任務(wù)很適合使用流處理模式。分析、服務(wù)器或應(yīng)用程序錯(cuò)誤日志,以及其他基于時(shí)間的衡量指標(biāo)是最適合的類型,因?yàn)閷?duì)這些領(lǐng)域的數(shù)據(jù)變化做出響應(yīng)對(duì)于業(yè)務(wù)職能來說是極為關(guān)鍵的。流處理很適合用來處理必須對(duì)變動(dòng)或峰值做出響應(yīng),并且關(guān)注一段時(shí)間內(nèi)變化趨勢(shì)的數(shù)據(jù)。

流處理是無限界的,適合于處理大量近乎實(shí)時(shí)的低延遲要求的數(shù)據(jù)。

Apache Storm, Kafka等是代表性的流處理框架。

轉(zhuǎn)載于:https://www.cnblogs.com/codingforum/p/10212097.html

《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的批处理和流处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。