简介

RDD支持两种类型操作,transformations和actions。

transformations: 转换,转换指的是从已经存在的数据集中创建一个新的数据集。比如map就是一个转换操作,它将每一个数据集元素传递给一个函数并且返回一个新RDD。

actions:动作,在数据集上进行计算后返回一个值。比如reduce就是一个动作,它使用相同的函数来聚合RDD的所有元素,并将最终结果返回。


transformations

所有转换都是惰性的,它们不会马上计算结果。转换仅仅在动作需要一个结果返回给驱动程序的时候计算。这个设计可以使得spark运行得更高效。