【云计算】hive配置文件实例教程-职坐标

【云计算】hive配置文件实例教程

小标 2019-01-23 来源：阅读 1530 评论 0

摘要：本文主要向大家介绍了【云计算】hive配置文件实例教程，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】hive配置文件实例教程，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

说明：所有hive运行的map与reduce任务可以产生的文件的和

默认值:100000

hive.exec.dynamic.partition

说明：是否为自动分区

默认值：false

hive.mapred.reduce.tasks.speculative.execution

说明：是否打开推测执行

默认值：true

hive.input.format

说明：Hive默认的input format

默认值： org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat

hive.exec.counters.pull.interval

说明：Hive与JobTracker拉取counter信息的时间

默认值：1000ms

hive.script.recordreader

说明：使用脚本时默认的读取类

默认值： org.apache.hadoop.hive.ql.exec.TextRecordReader

hive.script.recordwriter

说明：使用脚本时默认的数据写入类

默认值： org.apache.hadoop.hive.ql.exec.TextRecordWriter

hive.mapjoin.check.memory.rows

说明：内存里可以存储数据的行数

默认值： 100000

hive.mapjoin.smalltable.filesize

说明：输入小表的文件大小的阀值，如果小于该值，就采用普通的join

默认值： 25000000

hive.auto.convert.join

说明：是不是依据输入文件的大小，将Join转成普通的Map Join

默认值： false

hive.mapjoin.followby.gby.localtask.max.memory.usage

说明：map join做group by 操作时，可以使用多大的内存来存储数据，如果数据太大，则不会保存在内存里

默认值：0.55

hive.mapjoin.localtask.max.memory.usage

说明：本地任务可以使用内存的百分比

默认值： 0.90

hive.heartbeat.interval

说明：在进行MapJoin与过滤操作时，发送心跳的时间

默认值1000

hive.merge.size.per.task

说明：合并后文件的大小

默认值： 256000000

hive.mergejob.maponly

说明：在只有Map任务的时候合并输出结果

默认值： true

hive.merge.mapredfiles

默认值：在作业结束的时候是否合并小文件

说明： false

hive.merge.mapfiles

说明：Map-Only Job是否合并小文件

默认值：true

hive.hwi.listen.host

说明：Hive UI 默认的host

默认值：0.0.0.0

hive.hwi.listen.port

说明：Ui监听端口

默认值：9999

hive.exec.parallel.thread.number

说明：hive可以并行处理Job的线程数

默认值：8

hive.exec.parallel

说明：是否并行提交任务

默认值：false

hive.exec.compress.output

说明：输出使用压缩

默认值： false

hive.mapred.mode

说明： MapReduce的操作的限制模式，操作的运行在该模式下没有什么限制

默认值： nonstrict

hive.join.cache.size

说明： join操作时，可以存在内存里的条数

默认值： 25000

hive.mapjoin.cache.numrows

说明： mapjoin 存在内存里的数据量

默认值：25000

hive.join.emit.interval

说明：有连接时Hive在输出前，缓存的时间

默认值： 1000

hive.optimize.groupby

说明：在做分组统计时，是否使用bucket table

默认值： true

hive.fileformat.check

说明：是否检测文件输入格式

默认值：true

hive.metastore.client.connect.retry.delay

说明： client 连接失败时,retry的时间间隔

默认值：1秒

hive.metastore.client.socket.timeout

说明: Client socket 的超时时间

默认值：20秒

mapred.reduce.tasks

默认值：-1

说明：每个任务reduce的默认值

-1 代表自动根据作业的情况来设置reduce的值

hive.exec.reducers.bytes.per.reducer

默认值： 1000000000 (1G)

说明：每个reduce的接受的数据量

如果送到reduce的数据为10G,那么将生成10个reduce任务

hive.exec.reducers.max

默认值：999

说明： reduce的最大个数

hive.exec.reducers.max

默认值：999

说明： reduce的最大个数

hive.metastore.warehouse.dir

默认值：/user/hive/warehouse

说明：默认的数据库存放位置

hive.default.fileformat

默认值：TextFile

说明：默认的fileformat

hive.map.aggr

默认值：true

说明： Map端聚合，相当于combiner

hive.exec.max.dynamic.partitions.pernode

默认值：100

说明：每个任务节点可以产生的最大的分区数

hive.exec.max.dynamic.partitions

默认值：1000

说明：默认的可以创建的分区数

hive.metastore.server.max.threads

默认值：100000

说明： metastore默认的最大的处理线程数

hive.metastore.server.min.threads

默认值：200

说明： metastore默认的最小的处理线程数

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道！

大数据是什么意思大数据学习大数据学习路线

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

大数据云计算 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

黄骈联系TA

认证System Analyst，System Architect

张浩联系TA

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

大数据安全30天热搜词更多>>

sap云计算解决方案 openstack学习路线云计算关键技术超融合与云计算的区别 ibm云计算解决方案电子科技大学云计算技术与应用云计算概念云平台三层架构云计算中心建设方案云计算视频教程云计算技术是什么云计算主机安全云计算的核心技术云计算安全体系架构云计算架构图云计算安全解决方案云计算就业岗位有什么? 云计算技术与应用就业云计算技术与应用大专云计算的应用领域