【云计算】SparkSQL入门解析-职坐标

【云计算】SparkSQL入门解析

小标 2019-01-23 来源：阅读 1541 评论 0

摘要：本文主要向大家介绍了【云计算】SparkSQL入门解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】SparkSQL入门解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

一、创建SparkSession

Spark SQL中所有功能的入口点是SparkSession类。可以使用SparkSession.builder()直接创建一个SparkSession：

import org.apache.spark.sql.SparkSession;

SparkSession spark = SparkSession

.builder()

.appName("Java Spark SQL basic example")

.config("spark.some.config.option", "some-value")

.getOrCreate();

Spark 2.0 中，SparkSession为 Hive 特性提供了内嵌的支持，包括使用 HiveQL 查询，访问 Hive UDF，以及从 Hive 表中读取数据。

二、创建DataFrames

通过SparkSession，应用程序可以通过一个已经存在的RDD，Hive表，或者是Spark数据源创建DataFrams。下面以读取Json文件为例：

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

Dataset df = spark.read().json("examples/src/main/resources/people.json");

// Displays the content of the DataFrame to stdout

df.show();

// +----+-------+

// | age| name|

// +----+-------+

// |null|Michael|

// | 30| Andy|

// | 19| Justin|

// +----+-------+

三、无类型的Dataset操作

我们知道DataFrames在Scala 和 Java API中，它仅仅是多个Rows的Dataset。这些操作也参考了与强类型的Scala/Java Datasets中的”类型转换” 对应的”无类型转换” 。

下面使用 Dataset 进行结构化数据处理的示例：

// col("...") is preferable to df.col("...")

import static org.apache.spark.sql.functions.col;

// Print the schema in a tree format

df.printSchema();

// root

// |-- age: long (nullable = true)

// |-- name: string (nullable = true)

// Select only the "name" column

df.select("name").show();

// +-------+

// | name|

// +-------+

// |Michael|

// | Andy|

// | Justin|

// +-------+

// Select everybody, but increment the age by 1

df.select(col("name"), col("age").plus(1)).show();

// +-------+---------+

// | name|(age + 1)|

// +-------+---------+

// |Michael| null|

// | Andy| 31|

// | Justin| 20|

// +-------+---------+

// Select people older than 21

df.filter(col("age").gt(21)).show();

// +---+----+

// |age|name|

// +---+----+

// | 30|Andy|

// +---+----+

// Count people by age

df.groupBy("age").count().show();

// +----+-----+

// | age|count|

// +----+-----+

// | 19| 1|

// |null| 1|

// | 30| 1|

// +----+-----+

DataFrame 执行操作的完整API可以参考API 文档。

除了简单的列引用和表达式之外，DataFrame 也有丰富的函数库，比如string 操作，date 算术，常见的 math 操作等等。

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道！

大数据是什么意思大数据学习大数据学习路线

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

大数据云计算 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

黄骈联系TA

认证System Analyst，System Architect

张浩联系TA

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

大数据安全30天热搜词更多>>

sap云计算解决方案 openstack学习路线云计算关键技术超融合与云计算的区别 ibm云计算解决方案电子科技大学云计算技术与应用云计算概念云平台三层架构云计算中心建设方案云计算技术是什么云计算视频教程云计算主机安全云计算的核心技术云计算安全体系架构云计算架构图云计算安全解决方案云计算就业岗位有什么? 云计算技术与应用就业云计算技术与应用大专云计算的应用领域