import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
//创建SparkConf()并且设置App的名称
val conf = new SparkConf().setAppName("wordCount");
//创建SparkContext,该对象是提交spark app的入口
val sc = new SparkContext(conf);
//使用sc创建rdd,并且执行相应的transformation和action
sc.textFile(args(0)).flatMap(_.split(" ")).map((_ ,1)).reduceByKey(_ + _,1).sortBy(_._2,false).saveAsTextFile(args(1));
//停止sc,结束该任务
sc.stop();
}
}
spark wordcount demo
spark相关文章
wordcount相关文章
最近热门
- SO-PMI(Semantic Orientation Pointwise Mutual Information,情感倾向点互信息算法)
- kimi api
- NPU(Neural Processing Unit,神经网络处理器)
- vue3 vditor
- Straight-Through Estimator(STE, 直推估计器)
- 流匹配(Flow Matching,FM)
- 模型证据下界(Evidence Lower Bound,ELBO)
- LLM | Chain of Thought(CoT,思维链)
- Zero Redundancy Optimizer(ZeRO)内存优化技术
- 面向任意目标的全库向量召回技术PDM
最常浏览
- 016 推荐系统 | 排序学习(LTR - Learning To Rank)
- 偏微分符号
- i.i.d(又称IID)
- 利普希茨连续条件(Lipschitz continuity)
- (error) MOVED 原因和解决方案
- TextCNN详解
- 找不到com.google.protobuf.GeneratedMessageV3的类文件
- Deployment failed: repository element was not specified in the POM inside distributionManagement
- cannot access com.google.protobuf.GeneratedMessageV3 解决方案
- CLUSTERDOWN Hash slot not served 问题原因和解决办法
×