java collection api_Java Stream和Collection比较:何时以及如何从Java API返回?
向您展示一些可以非常方便地使用Java Stream流的場景以及如何使用它們的示例。
本文基于標準Java庫java.util.stream。它既與反應流無關,也與諸如Vavr之類的其他流實現無關。另外,我將不介紹諸如并行執行之類的流的高級細節。
首先,讓我們簡要討論與集合相比獨特的流功能。盡管存在一些相似之處,但差異是很大的,您不應將流僅視為庫中的另一種集合。
根據java.util.stream 的文檔,最重要的功能是:沒有存儲空間,可能是無限制的 -集合是現成的數據結構,而流表示產生數據的能力,通常在創建流時甚至不存在。由于不存儲流中的數據,因此我們可以創建幾乎不確定的流,或者可以更實際地對其重新措辭,我們可以讓消費者決定要從流中讀取多少個元素,從生產者的角度來看,它可能是不確定的(例如new Random().ints())。
懶惰加載 —在定義流時暫停許多操作(例如過濾,映射),并且僅在使用者決定使用流中的數據時才執行
本質上是實用的 -由于您已經具有使用流的經驗,因此您可能會注意到處理流中的數據是為每個步驟(例如過濾器或映射)創建新流,而不是修改源數據
消耗性 -您只能讀取一次流,然后與可以多次讀取的集合不同,它變為“消耗性”
現在讓我們看看我們可以用流解決什么問題。
處理大量數據
假設,我們必須將數據從外部服務復制到我們的數據庫中。要復制的數據量可以任意大。我們無法獲取所有數據,無法將其存儲在一個集合中,然后保存在數據庫中,因為這可能會耗盡堆內存。我們必須分批處理數據,并設計外部服務客戶端和數據庫存儲之間的接口。由于流不存儲日期,因此可以使用它安全地處理所需的數據量。
在示例(及以下所有示例)中,我們將使用java.util.stream.Stream接口的靜態方法來構建流。用Java構建流的最強大,最靈活的方法是實現Spliterator接口,然后使用StreamSupport類將其包裝為流。但是,正如我們所看到的,Stream在許多情況下,接口中的靜態工廠方法就足夠了。
假定一個簡單的API從支持分頁的外部服務(例如,REST服務,數據庫)中獲取數據。該API最多可limit從提取項目offset。迭代地使用API??,我們可以根據需要獲取盡可能多的數據
interface ExternalService {
List fetch(int offset, int limit);
}
現在,我們可以使用API??提供數據流,并將API的使用者與分頁API隔離開:
class Service {
private final ExternalService externalService;
public Stream stream(int size, int batchSize) {
var cursor = new Cursor();
return Stream
.generate(() -> next(cursor, size, batchSize))
.takeWhile(not(List::isEmpty))
.flatMap(List::stream);
}private List next(Cursor cursor, int size, int batchSize){
var fetchSize = Math.min(size?-?cursor.offset, batchSize);
var result = externalService.fetch(cursor.offset, fetchSize);
cursor.inc(result.size());
return result;
}
}
Cursor 握有當前偏移量offset:
private static class Cursor {
private int offset;
void inc(int by) {
offset += by;
}
我們使用Stream.generate()方法構建無限流,其中每個元素由流提供者創建。流元素是從REST API獲取的頁面List。將為每個流創建Cursor類的實例,以跟蹤獲取的元素的進度。
Stream.takeWhile()方法用于檢測的最后一頁,最后返回的數據流T,而不是List。
我們使用flatMap扁平化流。盡管在某些情況下,保留批處理(例如將整個頁面保存在一個事務中)可能很有用。
現在,我們可以使用Service.stream(size, batchSize)來檢索任意長流,而無需任何分頁API的知識(我們決定公開batchSize參數,但這是一個設計決策)。在任何時間點,內存消耗都受到批處理大小的限制。使用者可以一一處理數據,將其保存在數據庫中,或者再次進行批處理(批處理大小可能不同)。
快速訪問(不完整)數據
假設我們有一個耗時的操作,必須對數據的每個元素執行該操作,并且計算要花費時間t。對于n元素,使用者必須等待t * n才能接收到計算結果。例如,如果用戶正在等待帶有計算結果的表,則可能是一個問題。我們希望在顯示第一結果時立即顯示它們,而不是等待所有結果的計算并立即提交表。
public class Producer1 {
private Stream buildStream() {
return Stream.of("a", "b", "c"); }private String expensiveStringDoubler(String input){
return input + input;
}public Stream stream(){
return buildStream().map(this::expensiveComputation);
}
}
消費者:
stream().forEach(System.out::println)
輸出:
Processing of: a aa Processing of: b …
輸出:
Processing of: a aa Processing of: b …
如我們所見,在開始處理下一個元素之前,用戶可以使用第一個元素“ aa ”的處理結果,但是計算仍然是流的生產者責任。換句話說,消費者決定何時以及是否應該執行計算,但是生產者仍然負責如何執行計算。
您可能會認為這很容易,并且不需要流。當然,您是對的,讓我們看一下:
public class Producer1Classic {
public List data() {
return List.of("a", "b", "c", "d", "e", "f"); }public String expensiveStringDoubler(String input){
return input + input;
}
}
消費者:
var producer = new Producer1Classic();
for (String element : producer.data()) {
System.out.println(producer.expensiveComputation(element));
}
同樣的效果,但是實際上我們已經重新發明了輪子,我們的實現模仿了stream的祖先- Iterator并且我們失去了stream的API的優勢。
避免過早計算
再次假設我們要對每個流元素執行耗時的操作。在某些情況下,API的使用者無法提前說出需要多少數據。例如:用戶取消了數據加載
在數據處理過程中發生錯誤,無需處理其余數據
消費者讀取數據直到滿足條件,例如第一個正值
由于流的惰性,在這種情況下可以避免一些計算。
private Stream buildStream() {
return new Random().doubles().boxed();
}private Double expensiveComputation(Double input){
return input / 2;
}public Stream stream(){
return buildStream().map(this::expensiveComputation);
}
消費者:
stream().peek(System.out::println).filter(value -> value > 0.4).findFirst();
在該示例中,使用者讀取數據,直到該值大于0.4。生產者并不了解消費者的這種邏輯,但它只計算必要的項目。邏輯(例如條件)可以在用戶端獨立更改。
API易于使用
使用流而不是自定義API設計還有另一個原因。流是標準庫的一部分,并為許多開發人員所熟知。在我們的API中使用流使其他開發人員更容易使用該API。
其他注意事項
錯誤處理
傳統的錯誤處理不適用于Streams。由于實際處理將推遲到需要時進行,因此構造流時不會引發異常。基本上,我們有兩個選擇:引發RuntimeException-終止方法(例如forEach)將引發異常
將元素包裝到一個對象中,該對象表示正在處理的元素的當前狀態,例如TryVavr庫中的特殊類(博客中的詳細信息)
資源管理
有時我們必須使用一種資源來提供流數據(例如,外部服務中的會話),并且我們想在流處理完成時將其釋放。幸運的是,流實現了Autoclosable接口,我們可以在try-with-resources語句中使用流,從??而使資源管理變得非常容易。我們要做的就是使用onClose方法在流中注冊一個鉤子。當流關閉時,該掛鉤將自動被調用。
private Stream buildStream() {
return new Random().doubles().boxed();
}private Double expensiveComputation(Double input){
if (input > 0.8) throw new RuntimeException("Data processing exception"); return input / 2;
}public Stream stream(){
return buildStream().map(this::expensiveComputation).onClose(()-> System.out.println("Releasing resources…
消費者:
try (Stream stream = stream()){
stream.forEach(System.out::println);
}
輸出:
0.2264004802916616
0.32777949557515484
Releasing resources…
Exception in thread “main” java.lang.RuntimeException: Data processing exception
在該示例中,當發生數據處理異常時,流將通過try-with-resources語句自動關閉,并調用已注冊的處理程序。在示例輸出中,我們可以看到Releasing resources…處理程序打印的消息。
總結流不是集合。
流可以幫助我們解決以下問題:*處理大量數據*快速訪問(不完整的)數據*避免過早計算
構建流并不難。
我們必須注意錯誤處理。
支持資源管理。
總結
以上是生活随笔為你收集整理的java collection api_Java Stream和Collection比较:何时以及如何从Java API返回?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BJUI的应用
- 下一篇: java 设置pdf 编码格式_Java