【云计算】Hive查询HBase调用MapReduce性能优化教程

小标 2019-02-20 来源：阅读 806 评论 0

摘要：本文主要向大家介绍了【云计算】Hive查询HBase调用MapReduce性能优化教程，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】Hive查询HBase调用MapReduce性能优化教程，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

【云计算】Hive查询HBase调用MapReduce性能优化教程

1. 背景介绍：

Hive使用hive-hbase-handler建立HBase external table。在hive查询包含count(*)、join、以及Predicate Pushdown等操作时，会调用MapReduce进行处理。本文旨在查询性能方面的优化，算是对工作中的一点记录。

优化主要分为两个方面：

1) HBase预分区以及hive–hbase-storage-handler的实现。

2) HBase参数调优。

2. 一些基本知识：

1) 对Map过程的基本理解：Map是将原始数据拆分成split，根据split启动Mapper。

2) Hadoop有两套API，一套是org.apache.hadoop.mapred，一套是org.apache.hadoop.mapreduce。前者是旧API，特点是底层基本类是接口，实现类需implements interface，而后者是新API，底层基本类是抽象类，实现类需extends abstractClass。

3) hive的hive-storage-handler，使用的是旧mapred API。在handler中，需指定实现org.apache.hadoop.mapred.InputFormat接口。

3. org.apache.hadoop.mapred.InputFormat详解

简单来说，InputFormat 主要用于描述输入数据的格式，提供了以下两个功能：

1) 数据切分，按照某个策略将输入数据且分成若干个 split，以便确定 Map Task 的个数即 Mapper 的个数，在 MapReduce 框架中，一个 split 就意味着需要一个 Map Task;

2) 为 Mapper 提供输入数据，即给定一个 split(使用其中的 RecordReader 对象)将之解析为一个个的 key/value 键值对。

该类接口定义如下：

public interface InputFormat

其中，getSplit()方法主要用于切分数据，每一份数据由，split 只是在逻辑上对数据分片，并不会在磁盘上将数据切分成 split 物理分片，实际上数据在 HDFS 上还是以 block 为基本单位来存储数据的。InputSplit 只记录了 Mapper 要处理的数据的元数据信息，如起始位置、长度和所在的节点。

4. HBase预分区

在HBase Java API中，创建HBase table是可以指定TableDescriptor的。该TableDescriptor类似于一种预分区策略。默认地，如果没有指定TableDescriptor来创建一张表时，只有一个region,正处于混沌时期，start-end key无边界,可谓海纳百川。什么样的rowKey都可以接受，然而，当数据越来越多，region的size越来越大时，大到一定的阀值，hbase认为再往这个region里塞数据已经不合适了，就会找到一个midKey将region一分为二，成为2个region,这个过程称为分裂(region-split).而midKey则为这二个region的临界，左为N无下界，右为M无上界。< midKey则为阴被塞到N区，> midKey则会被塞到M区。

TableDescriptor是一个byte[][]数组，其中每一个byte[]相当于split key，如指定了63个split key，就会分成64个分区。预分区是不会被HBase Compact所合并的。

由于HBase是字典排序，所以如果要将表数据分散到预分区中，需要在rowkey指定一个prefix并保证尽量分散。常见的散列设计如hash或mod都是可以的。

5. 基于预分区的并发mapper设计

在HBase中，不同的RegionServer管理着不同的Region，我们希望能并发scan所有的region以达到并行化。由于mapper本身是并行的，所以只需在split上做文章，也就是改写getSplits方法。具体做法是：

1) 实现InputSplit接口，编写一个Split对象类，在默认hive-hbase-handler中已有实现。

2) 拿到table的region list。

3) 遍历list，获取每一个region的startKey和endKey。

4) 将二者写入继承的Split对象类。有多少region就有多少split，并且在Split对象类的readFields()方法中根据startKey和endKey读取，write方法类似。

这样recordReader就会读取设置的每一个split。具体代码不做赘述，只提供思路。