RDD基本转换操作:zipWithIndex、zipWithUniqueId
生活随笔
收集整理的這篇文章主要介紹了
RDD基本转换操作:zipWithIndex、zipWithUniqueId
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
zipWithIndex
def zipWithIndex(): RDD[(T, Long)]
該函數(shù)將RDD中的元素和這個(gè)元素在RDD中的ID(索引號(hào))組合成鍵/值對(duì)。
?zipWithUniqueId
def zipWithUniqueId(): RDD[(T, Long)]
該函數(shù)將RDD中元素和一個(gè)唯一ID組合成鍵/值對(duì),該唯一ID生成算法如下:
每個(gè)分區(qū)中第一個(gè)元素的唯一ID值為:該分區(qū)索引號(hào),
每個(gè)分區(qū)中第N個(gè)元素的唯一ID值為:(前一個(gè)元素的唯一ID值) + (該RDD總的分區(qū)數(shù))
看下面的例子:
?總結(jié)
以上是生活随笔為你收集整理的RDD基本转换操作:zipWithIndex、zipWithUniqueId的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spark MLlib平台的协同过滤算法
- 下一篇: 基于Spark的Als算法+自迭代+Sp