【云计算】json日志文件通过spark转存成parquet方案解析-职坐标

海同科技，欢迎您！

就业

学习

资料

IT知识库

大数据云计算

站

热门城市全国站>

其他省市

快速购买

15692118659

热门课程

IT学院

职坐标首页 IT知识库大数据云计算大数据安全

选择在海同提升： 30 天 1744 名，今日申请 88 人 IT技术咨询 >>

【云计算】json日志文件通过spark转存成parquet方案解析

小标 2018-12-13 来源：阅读 1992 评论 0

摘要：本文主要向大家介绍了【云计算】json日志文件通过spark转存成parquet方案解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】json日志文件通过spark转存成parquet方案解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

收集的业务数据为json格式，准备利用parquet 格式重新存储到hive表，以节约空间并方便后续通过spark 或 hive 进行分析查询。

(示例代码是用python)

具体步骤是：

1.用spark读取json数据后，得到一个dataframe

path = '/xx/xxx/xxx.json'
df = sqlContext.read.json(path)

2.dataframe 经过filter 、select 等操作再以parquet格式写入hdfs指定路径

df = df.filter(‘xxx’).select(‘xxx’)

3.目录是按天分区，类似 /parquet/xxxxxx/dt=2017-06-06 这样

df.write.parquet(“/parquet/xxxxxx/dt=2017-06-06”,”overwrite”)

4.建立对应hive表

CREATE TABLE xxxxxx(
`xx` string,
`xxx` bigint,
`xxxxx` string
... ...
...
)
partitioned by (dt string )
STORED as PARQUET
LOCATION '/parquet/xxxxxx';

5.这样建立完以后，hive还需要执行一步数据加载，才能查到数据

load data inpath '/parquet/xxxxxx/dt=2017-06-06' into table xxxxxx partition(dt='2017-06-06')

或者

alter table xxxxxx add partition(dt='2017-06-06') location '/parquet/xxxxxx/dt=2017-06-06';

load 和 alter 的主要区别是：

load 会创建分区目录，并移动数据到分区下，alter 的方式不会创建分区目录，也不会移动数据。

个人场景alter 方式添加分区更适合。

把json 存储为parquet,不但可以节省50%左右的存储空间，更方便后续工作中的数据查询，并且查询效率比文本方式更高。

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道！

it教育培训 it教育培训中心政府云计算解决方案

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

评论（0）

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

职坐标公众号

大数据云计算 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

认证System Analyst，System Architect

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

【零基础】人工智能+Python全栈开发技术

人工智能+Python技术风口浪潮

【零基础】JavaEE高级开发技术

【零基础】JavaEE高级开发技术

起薪高，轻松进名企

【零基础】大数据与分布式架构技术

【零基础】大数据与分布式架构技术

培训大数据分布式架构

大数据安全30天热搜词更多>>

sap云计算解决方案 openstack学习路线云计算关键技术超融合与云计算的区别 ibm云计算解决方案电子科技大学云计算技术与应用云计算概念云平台三层架构云计算中心建设方案云计算视频教程云计算技术是什么云计算主机安全云计算的核心技术云计算安全体系架构云计算架构图云计算安全解决方案云计算就业岗位有什么? 云计算技术与应用就业云计算的应用领域云计算技术与应用大专

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场匹配合适岗位

验证码手机号，获得海同独家IT培训资料

选择就业方向：: 人工智能物联网; 大数据开发/分析; 人工智能Python; Java全栈开发; WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了，明天再试试吧！

提交

我们会在第一时间安排职业规划师联系您！

您也可以联系我们的职业规划师咨询：

小职老师的微信号：z_zhizuobiao

小职老师的微信号：z_zhizuobiao

版权所有职坐标-一站式AI+学习就业服务平台沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com，All Rights Reserved.
沪公网安备 31011502005948号

关于我们 │ 法律声明 │ 联系我们

©2015 www.zhizuobiao.com All Rights Reserved