當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

spark大数据基本概念整理以及软件下载链接

發(fā)布時間：2023/12/20 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark大数据基本概念整理以及软件下载链接小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

注意：
所謂的hive on spark就是把mapreduce替換為spark
而spark on hive僅僅是spark連接hive

-------------------------下面是spark下載連接--------------------------
spark下載地址
https://archive.apache.org/dist/spark/
---------------------------下面是hadoop下載鏈接中---------------
http://mirror.bit.edu.cn/apache/hadoop/

為什么分成common和core呢?
答案如下：
To help provide some additional details regarding the differences between Hadoop-common, Hadoop-core and Hadoop-client, from a high-level perspective:

Hadoop-common refers to the commonly used utilities and libraries that support the Hadoop modules.
Hadoop-core is the same as Hadoop-common; It was renamed to Hadoop-common in July 2009, per https://hadoop.apache.org/.
Hadoop-client refers to the client libraries used to communicate with Hadoop’s common components (HDFS, MapReduce, YARN) including but not limited to logging and codecs for example.
Generally speaking, for developers who build apps that submit to YARN, run a MR job, or access files from HDFS use Hadoop-client libraries.

---------------------------hadoop下載連接-----------------
http://hadoop.apache.org/releases.html
---------------------------sqoop下載連接-----------------
http://archive.apache.org/dist/sqoop/

http://mirrors.hust.edu.cn/apache/hive/
這個連接中的hive和hive-storage是什么區(qū)別，分別是什么意思？

如果是spark搞機(jī)器學(xué)習(xí)，下載common那個就足夠了
參考鏈接如下：
https://stackoverflow.com/questions/28856096/differences-between-hadoop-common-hadoop-core-and-hadoop-client

－－－－－－－－maven下載地址－－－－－－－－－－－－－－－－－－－－－－－－－－－－

http://maven.aliyun.com/nexus/#welcome
這個鏈接我看了下,有時候搜到的包不是想要的包

－－－－－－－－－－－－－－－－－－－－－這個連接中的這些很不錯－－－－－－－－－－－
https://www.v2ex.com/t/241917
鏈接中目前常用的是這么幾點(diǎn)
4 、我們測試網(wǎng)經(jīng)常出現(xiàn)找不到第三方 jar 的情況，如果是用 CDH 的同學(xué)一般會遇到，就是在 CDH 5.4 開始， CDH 的技術(shù)支持人員說他們?nèi)サ袅?hbase 等一些 jar ，他們認(rèn)那些 jar 已經(jīng)不需要耦合在自己的 classpath 中，這個情況可以通過 spark.executor.extraClassPath 方式添加進(jìn)來。
5 、一些新入門的人會遇到搞不清 transform 和 action ，沒有明白 transform 是 lazy 的，需要 action 觸發(fā)，并且兩個 action 前后調(diào)用效果可能不一樣。
6 、大家使用過程當(dāng)中，對需要重復(fù)使用的 RDD ，一定要做 cache ，性能提升會很明顯。

另外要注意解決spark數(shù)據(jù)消費(fèi)不均勻的問題,似乎需要用到parquet

spark主要使用yarn和hdfs
#-------------------------------------------------------------------
mongodb注冊賬號
appleyuchi@163.com
！QAZ2wsx

總結(jié)

以上是生活随笔為你收集整理的spark大数据基本概念整理以及软件下载链接的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。