【云计算】hive配置文件实例教程
小标 2019-01-23 来源 : 阅读 908 评论 0

摘要:本文主要向大家介绍了【云计算】hive配置文件实例教程,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】hive配置文件实例教程,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。


说明:所有hive运行的map与reduce任务可以产生的文件的和


默认值:100000


hive.exec.dynamic.partition


说明:是否为自动分区


默认值:false


hive.mapred.reduce.tasks.speculative.execution


说明:是否打开推测执行


默认值:true


hive.input.format


说明:Hive默认的input format


默认值: org.apache.hadoop.hive.ql.io.CombineHiveInputFormat


如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat


hive.exec.counters.pull.interval


说明:Hive与JobTracker拉取counter信息的时间


默认值:1000ms


hive.script.recordreader


说明:使用脚本时默认的读取类


默认值: org.apache.hadoop.hive.ql.exec.TextRecordReader


hive.script.recordwriter


说明:使用脚本时默认的数据写入类


默认值: org.apache.hadoop.hive.ql.exec.TextRecordWriter


hive.mapjoin.check.memory.rows


说明: 内存里可以存储数据的行数


默认值: 100000


hive.mapjoin.smalltable.filesize


说明:输入小表的文件大小的阀值,如果小于该值,就采用普通的join


默认值: 25000000


hive.auto.convert.join


说明:是不是依据输入文件的大小,将Join转成普通的Map Join


默认值: false


hive.mapjoin.followby.gby.localtask.max.memory.usage


说明:map join做group by 操作时,可以使用多大的内存来存储数据,如果数据太大,则不会保存在内存里


默认值:0.55


hive.mapjoin.localtask.max.memory.usage


说明:本地任务可以使用内存的百分比


默认值: 0.90


hive.heartbeat.interval


说明:在进行MapJoin与过滤操作时,发送心跳的时间


默认值1000


hive.merge.size.per.task


说明: 合并后文件的大小


默认值: 256000000


hive.mergejob.maponly


说明: 在只有Map任务的时候 合并输出结果


默认值: true


hive.merge.mapredfiles


默认值: 在作业结束的时候是否合并小文件


说明: false


hive.merge.mapfiles


说明:Map-Only Job是否合并小文件


默认值:true


hive.hwi.listen.host


说明:Hive UI 默认的host


默认值:0.0.0.0


hive.hwi.listen.port


说明:Ui监听端口


默认值:9999


hive.exec.parallel.thread.number


说明:hive可以并行处理Job的线程数


默认值:8


hive.exec.parallel


说明:是否并行提交任务


默认值:false


hive.exec.compress.output


说明:输出使用压缩


默认值: false


hive.mapred.mode


说明: MapReduce的操作的限制模式,操作的运行在该模式下没有什么限制


默认值: nonstrict


hive.join.cache.size


说明: join操作时,可以存在内存里的条数


默认值: 25000


hive.mapjoin.cache.numrows


说明: mapjoin 存在内存里的数据量


默认值:25000


hive.join.emit.interval


说明: 有连接时Hive在输出前,缓存的时间


默认值: 1000


hive.optimize.groupby


说明:在做分组统计时,是否使用bucket table


默认值: true


hive.fileformat.check


说明:是否检测文件输入格式


默认值:true


hive.metastore.client.connect.retry.delay


说明: client 连接失败时,retry的时间间隔


默认值:1秒


hive.metastore.client.socket.timeout


说明: Client socket 的超时时间


默认值:20秒


mapred.reduce.tasks


默认值:-1


说明:每个任务reduce的默认值


-1 代表自动根据作业的情况来设置reduce的值


hive.exec.reducers.bytes.per.reducer


默认值: 1000000000 (1G)


说明:每个reduce的接受的数据量


如果送到reduce的数据为10G,那么将生成10个reduce任务


hive.exec.reducers.max


默认值:999


说明: reduce的最大个数


hive.exec.reducers.max


默认值:999


说明: reduce的最大个数


hive.metastore.warehouse.dir


默认值:/user/hive/warehouse


说明: 默认的数据库存放位置


hive.default.fileformat


默认值:TextFile


说明: 默认的fileformat


hive.map.aggr


默认值:true


说明: Map端聚合,相当于combiner


hive.exec.max.dynamic.partitions.pernode


默认值:100


说明:每个任务节点可以产生的最大的分区数


hive.exec.max.dynamic.partitions


默认值:1000


说明: 默认的可以创建的分区数


hive.metastore.server.max.threads


默认值:100000


说明: metastore默认的最大的处理线程数


hive.metastore.server.min.threads


默认值:200


说明: metastore默认的最小的处理线程数


          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程