TPC-H生成Spark测试用的伪数据集(转载)
生活随笔
收集整理的這篇文章主要介紹了
TPC-H生成Spark测试用的伪数据集(转载)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
下載地址:
鏈接: https://pan.baidu.com/s/1MwVQY_T0vehm0pUUsuqstQ 提取碼: vsgu
步驟如下:
cd dbgen
cp makefile.suite makefile
subl?makefile
make
./dbgen -s 5?([1]表示想要生成5G大小的數(shù)據(jù)集,但是實(shí)際生成似乎不是那么大,一般都會(huì)偏小)
然后會(huì)生成數(shù)據(jù)集lineitem.tbl
丟給給Spark使用參考[2]
?
Reference:
[1]TPC-H生成測試數(shù)據(jù)集-Ubuntu
[2]Spark如何處理數(shù)據(jù)傾斜
總結(jié)
以上是生活随笔為你收集整理的TPC-H生成Spark测试用的伪数据集(转载)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 法师蓝色铭文哪个好
- 下一篇: error: not found: va