【云计算】Hive分析函数解析-职坐标

【云计算】Hive分析函数解析

小标 2019-02-20 来源：阅读 956 评论 0

摘要：本文主要向大家介绍了【云计算】Hive分析函数解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】Hive分析函数解析，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

【云计算】Hive分析函数解析

分析函数

1、窗口函数（开窗函数），关键字：over

（0）基础知识

2 preceding ====== 前两行

2 following ====== 后两行

current row ====== 当前行

unbounded preceding?====== 无上限

unbounded following ====== 无下限

（1）表user_par的结构和数据如下图

（2）以行定义窗口界限

（2-1）按id排序，并计算当前行和以下两行的年龄之和

select id, name, age, sum(age)over(order by id rows between current row and 2 following) from user_par;

（2-2）按id排序，并计算当前行和以上两行的年龄之和

select id, name, age, sum(age)over(order by id rows between current row and 2 following) from user_par;

（3）以值定义窗口界限，必须和排序一起使用，否则没有意义

（3-1）按age排序，并计算当前的年龄比它大10岁的所有年龄之和

select id, name, age, sum(age)over(order by age range between current row and 10 following) from user_par;

（3-2）不加order by时计算的是所有年龄的总和，值定义窗口界限没有意义

select id, name, age, sum(age)over(range between current row and 10 following) from user_par;

2、排名函数

（0）表user_nopar的结构和数据如下图

（1）并列跳跃排名：按省份分区，并按年龄大小排序

select id, name, province, age, rank()over(partition by province order by age asc) from user_nopar;

（2）并列不跳跃：按省份分区，并按年龄大小排序

select id, name, province, age, dense_rank()over(partition by province order by age asc) from user_nopar;

（3）顺序排名：按省份分区，并按年龄大小排序

select id, name, province, age, row_number()over(partition by province order by age asc) from user_nopar;

3、最大值函数

select id, name, province, age, first_value(age)over(partition by province order by age desc) from user_nopar;

select id, name, province, age, last_value(age)over(partition by province order by age asc range between unbounded preceding and unbounded following) from user_nopar;

4、最小值函数

select id, name, province, age, first_value(age)over(partition by province order by age asc) from user_nopar;

select id, name, province, age, last_value(age)over(partition by province order by age desc range between unbounded preceding and unbounded following) from user_nopar;

5、三六九等函数

select id, name, age, ntile(3)over(order by age) from user_nopar;

6、上提和下沉函数

（1）按province分区，并将age字段向上提一行

select id, name, province, age, lead(age)over(partition by province order by age asc) from user_nopar;

（2）按province分区，并将age字段向上提两行

select id, name, province, age, lead(age,2)over(partition by province order by age asc) from user_nopar;

（3）按province分区，并将age字段向下沉两行

select id, name, province, age, lag(age,2)over(partition by province order by age asc) from user_nopar;

7、指定值占总数的百分比

（1）年龄按降序排列，统计年龄大于等于当前值的人占所有人的百分比

 select id, name, age, cume_dist()over(order by age desc) from user_nopar;

（2）按省份分区，并按年龄升序排列，统计每个分区内年龄小于等于当前值的人占所有人的百分比

select id, name, province, age, cume_dist()over(partition by province order by age asc) from user_nopar;

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道！

大数据可视化大数据是什么大数据时代

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

大数据云计算 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

黄骈联系TA

认证System Analyst，System Architect

张浩联系TA

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

大数据安全30天热搜词更多>>

sap云计算解决方案 openstack学习路线云计算关键技术超融合与云计算的区别 ibm云计算解决方案电子科技大学云计算技术与应用云计算概念云平台三层架构云计算中心建设方案云计算技术是什么云计算视频教程云计算的核心技术云计算主机安全云计算安全体系架构云计算架构图云计算安全解决方案云计算就业岗位有什么? 云计算技术与应用就业云计算技术与应用大专云计算的应用领域