日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark DataFrameDataSet

發(fā)布時間:2025/4/5 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark DataFrameDataSet 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1、DataFrame產(chǎn)生背景

? ? ? ?Google trend —>DataFrame

? ? ? ?DataFrame不是spark SQL提出的,而是早起源于R、python

? ? ? ?Spark RDD API ?vs MapReduce API ? ? ? Threshold

? ? ? ?R/Pandas ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?One machine

2、DataFrame概述

? ? ? Dataset:分布式數(shù)據(jù)集 ?DataFrame:以列(列名、列的類型、列值)的形式構(gòu)成的分布式數(shù)據(jù)集,按照列賦予不同的名稱

? ? ? Student

? ? ? id:int

? ? ? name:string

? ? ? city:string

? ? ? selecting .filtering ,aggregation and plotting structured data

3、DataFrame對比RDD

? ? ? RDD分布式數(shù)據(jù)集

? ? ?RDD:

? ? ? ? ? ? ?java/scala ==> ivm

? ? ? ? ? ? ?python ==>python runtime

? ? ?DataFrame:

? ? ? ? ? ? ?java/scala/python ==> Logic Plan

4、DataFrame基本API常用操作

5、DataFrame與RDD互操作之一

? ? ?反射

? ? ?使用反射來推斷包含特定數(shù)據(jù)類型的RDD的元數(shù)據(jù)

? ? ? 使用DataFrame API 或者sql方式編程

5、DataFrame與RDD互操作之二:編程方式

DataFrame和RDD互操作的兩種方式:

1)反射:case ?class ? ? 前提:事先需要知道你的字段、字段類型

2)編程:Row ? ? ? ? ? ? ? 如果第一種情況不能滿足你的要求(事先不知道列)

3)選型:優(yōu)先選擇第一種

6、Dataset概述

分布式數(shù)據(jù)集,1.3 DataFrame出現(xiàn) ?1.6 Dataset出現(xiàn)

DataFrame = Dataset[Row]

Dataset:強類型 ? typed ?case ?class

DataFrame:弱類型 ?Row

SQL:

? ??select name from person; compile ok,result no

DataFrame:

? ? df.select(“name’) ? ? compile no

? ? df.select(“nname’) ? compile ok

Dataset

? ? ds.map(line => line.itemid) ??compile no

?

注意:代表中標紅是由于沒有放到帶有相應(yīng)包的文件中

總結(jié)

以上是生活随笔為你收集整理的Spark DataFrameDataSet的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。