日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

<thead id="wodkz"></thead>

<nobr id="wodkz"><var id="wodkz"></var></nobr>

<nobr id="wodkz"></nobr>

歡迎訪問生活随笔！

生活随笔

生活随笔是一个全网技术分享平台，涵盖前端开发（HTML/CSS/JavaScri...

生活随笔

當前位置：首頁 >

spark比java快吗_为什么我的Spark DataFrame比RDD慢得多？

發布時間：2025/3/20 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark比java快吗_为什么我的Spark DataFrame比RDD慢得多？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這兩個數字似乎都相對較高，并且不清楚如何創建 DataFrame 或測量時間，但一般來說，這樣的差異可以通過與分區數量相比較少的記錄來解釋 .

spark.sql.shuffle.partitions 的默認值為200，表示您獲得的任務數 . 使用50K記錄時，啟動任務的開銷將高于從并行執行中獲得的加速 . 讓我們用一個簡單的例子來說明 . 首先讓我們創建一個示例數據：

import string

import random

random.seed(323)

def random_string():

n = random.randint(3, 6)

return (''.join(random.choice(string.ascii_uppercase) for _ in range(n)), )

df = (sc

.parallelize([random_string() for _ in range(50000)], 8).toDF(["name"])

.cache())

并根據 shuffle.partitions 的數量來衡量時間：

sqlContext.setConf("spark.sql.shuffle.partitions", "1")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 504 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "1")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 451 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "100")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 624 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "200")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 778 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "1000")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 1.75 s per loop

雖然這些值與您聲稱的值不可比，并且此數據已在本地模式下收集，但您可以看到相對清晰的模式 . 這同樣適用于RDD：

from operator import add

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 1).collect()

## 10 loops, best of 3: 414 ms per loop

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 10).collect()

## 10 loops, best of 3: 439 ms per loop

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 100).collect()

## 10 loops, best of 3: 1.3 s per loop

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 1000).collect()

## 10 loops, best of 3: 8.41 s per loop

在適當的分布式環境中，由于網絡IO的成本，這將更高 .

僅供比較，讓我們檢查在沒有Spark的情況下在本地執行此任務需要多長時間

from collections import Counter

data = df.rdd.flatMap(lambda x: x).collect()

%timeit -n 10 Counter(data)

## 10 loops, best of 3: 9.9 ms per loop

您還應該查看數據位置 . 根據您使用的存儲和配置，即使使用這樣的小輸入，這也會給您的作業增加額外的延遲 .

總結

以上是生活随笔為你收集整理的spark比java快吗_为什么我的Spark DataFrame比RDD慢得多？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： swift语言java_用Swift语言
下一篇： java 取得日期_java-如何从某个

<nobr id="ddoh4"></nobr>

<nobr id="ddoh4"><small id="ddoh4"></small></nobr>

<dfn id="ddoh4"><dd id="ddoh4"><samp id="ddoh4"></samp></dd></dfn>

<tr id="ddoh4"><u id="ddoh4"></u></tr>