日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

spark比java快吗_为什么我的Spark DataFrame比RDD慢得多?

發布時間:2025/3/20 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 spark比java快吗_为什么我的Spark DataFrame比RDD慢得多? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這兩個數字似乎都相對較高,并且不清楚如何創建 DataFrame 或測量時間,但一般來說,這樣的差異可以通過與分區數量相比較少的記錄來解釋 .

spark.sql.shuffle.partitions 的默認值為200,表示您獲得的任務數 . 使用50K記錄時,啟動任務的開銷將高于從并行執行中獲得的加速 . 讓我們用一個簡單的例子來說明 . 首先讓我們創建一個示例數據:

import string

import random

random.seed(323)

def random_string():

n = random.randint(3, 6)

return (''.join(random.choice(string.ascii_uppercase) for _ in range(n)), )

df = (sc

.parallelize([random_string() for _ in range(50000)], 8).toDF(["name"])

.cache())

并根據 shuffle.partitions 的數量來衡量時間:

sqlContext.setConf("spark.sql.shuffle.partitions", "1")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 504 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "1")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 451 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "100")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 624 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "200")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 778 ms per loop

sqlContext.setConf("spark.sql.shuffle.partitions", "1000")

%timeit -n 10 df.groupby('name').count().collect()

## 10 loops, best of 3: 1.75 s per loop

雖然這些值與您聲稱的值不可比,并且此數據已在本地模式下收集,但您可以看到相對清晰的模式 . 這同樣適用于RDD:

from operator import add

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 1).collect()

## 10 loops, best of 3: 414 ms per loop

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 10).collect()

## 10 loops, best of 3: 439 ms per loop

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 100).collect()

## 10 loops, best of 3: 1.3 s per loop

%timeit -n 10 df.rdd.map(lambda x: (x['name'], 1)).reduceByKey(add, 1000).collect()

## 10 loops, best of 3: 8.41 s per loop

在適當的分布式環境中,由于網絡IO的成本,這將更高 .

僅供比較,讓我們檢查在沒有Spark的情況下在本地執行此任務需要多長時間

from collections import Counter

data = df.rdd.flatMap(lambda x: x).collect()

%timeit -n 10 Counter(data)

## 10 loops, best of 3: 9.9 ms per loop

您還應該查看數據位置 . 根據您使用的存儲和配置,即使使用這樣的小輸入,這也會給您的作業增加額外的延遲 .

總結

以上是生活随笔為你收集整理的spark比java快吗_为什么我的Spark DataFrame比RDD慢得多?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。