微信号:infoqchina

介绍:有内容的技术社区媒体

Lambda表达式让Spark编程更容易

2014-04-17 18:03 马德奎

近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持,而且与Java的旧版本保持兼容。该版本将在5月初发布。


文中举了两个例子,用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现,但在Java 7中需要向filter传递一个Function对象,这有些笨拙:


JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(

new Function<String, Boolean>() {

public Boolean call(String s) {

return s.contains("error");

}

});

long numErrors = lines.count();


在Java 8中,代码更为简洁:


JavaRDD<String> lines = sc.textFile("hdfs://log.txt")

.filter(s -> s.contains("error"));

long numErrors = lines.count();


当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在Java 7中,实现代码如下:


JavaRDD<String> lines = sc.textFile("hdfs://log.txt");


//将每一行映射成多个单词

JavaRDD<String> words = lines.flatMap(

new FlatMapFunction<String, String>() {

public Iterable<String> call(String line) {

return Arrays.asList(line.split(" "));

}

});


// 将单词转换成(word, 1)对

JavaPairRDD<String, Integer> ones = words.mapToPair(

new PairFunction<String, String, Integer>() {

public Tuple2<String, Integer> call(String w) {

return new Tuple2<String, Integer>(w, 1);

}

});


// 分组并按键值添加对以产生计数

JavaPairRDD<String, Integer> counts = ones.reduceByKey(

new Function2<Integer, Integer, Integer>() {

public Integer call(Integer i1, Integer i2) {

return i1 + i2;

}

});


counts.saveAsTextFile("hdfs://counts.txt");


而在Java 8中,该程序只需要几行代码:


JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

JavaRDD<String> words =

lines.flatMap(line -> Arrays.asList(line.split(" ")));

JavaPairRDD<String, Integer> counts =

words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))

.reduceByKey((x, y) -> x + y);

counts.saveAsTextFile("hdfs://counts.txt");


要了解更多关于Spark的信息,可以查看官方文档。Spark只需下载解压即可运行,而无须安装。


***********************************

本文来自InfoQ微信公众账号:infoqchina

1、回复“今日新闻”,查看今天更新的新闻;

2、回复“今日英文”,查看今天英文站的更新;

3、回复“文章 +关键词”,搜索关键词相关内容;

4、回复“QCon”,了解QCon大会相关信息;

5、回复“活动”,了解最近InfoQ组织的线下沙龙;

6、回复“架构师”,获取《架构师》下载地址;

7、回复“投稿”,了解投稿和加入编辑团队的流程。

***********************************

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 关于Android 启动连续闪退保护方案的思考 前端开发中的JS调试技巧大盘点 聪明你的发布(研发案例分享17页PPT) 15 分钟带你入门 Fuse 在VS项目中通过GIT生成版本号作为编译版本号