【云计算】Java，Spark中二次排序解析-职坐标

【云计算】Java，Spark中二次排序解析

小标 2019-02-20 来源：阅读 610 评论 0

摘要：本文主要向大家介绍了【云计算】Java，Spark中二次排序解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】Java，Spark中二次排序解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

【云计算】Java，Spark中二次排序解析

一.原理：

二次排序的思想：

是有两列数据，可能存在第一列数据相同时第二列数据不相同的情况，这时候就要考虑用二次排序的思想。

首先想到的是，将第二列的数据封装成对象，当第一列数据相同的时候，要按照第二列排序，这时候，我们就可以按照封装成的对象进行排序。对象可以单独封装成类。实现Serializable,Comparable两个接口。

排序顺序倒叙问题：第一列排序的时候，我们可以按照sortbykey中的true或者false来控制顺序，里边内层排序的时候，我们可以通过控制封装成的对象中的排序的正负号，来控制顺序。

排序的数字：

二.代码实现：

?上边的部分是将按照最前边的数字排序的：也就是按照第一列数据进行排序的

package com.bjsxt.spark.others.secondsort;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**
 * 二次排序
 * 
 * @author root
 *
 */
public class SecondarySortTest {
 public static void main(String[] args) {
  SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("SecondarySortTest");
  final JavaSparkContext sc = new JavaSparkContext(sparkConf);

  JavaRDD

下边的是对于里边对象的排序，也就是按照第二列数据排序的：

package com.bjsxt.spark.others.secondsort;

import java.io.Serializable;

public class SecondSortKey implements Serializable, Comparable

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道！

大数据可视化大数据是什么大数据时代

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

大数据云计算 直通车

索取资料
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同师资推荐更多>>

黄骈联系TA

认证System Analyst，System Architect

程光淼联系TA

精通C、C++等语言、智能芯片开发

热门就业培训班更多>>

【零基础】人工智能+Python全栈开发课程

大数据安全30天热搜词更多>>

sap云计算解决方案 openstack学习路线超融合与云计算的区别云计算关键技术 ibm云计算解决方案电子科技大学云计算技术与应用云计算概念云平台三层架构云计算中心建设方案云计算视频教程云计算技术是什么云计算主机安全云计算的核心技术云计算安全体系架构云计算架构图云计算安全解决方案云计算就业岗位有什么? 云计算技术与应用就业云计算技术与应用大专云计算的应用领域