【云计算】Hadoop大数据开发学习路线
小标 2019-01-23 来源 : 阅读 1353 评论 0

摘要:本文主要向大家介绍了【云计算】Hadoop大数据开发学习路线,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】Hadoop大数据开发学习路线,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。


Hadoop发展到今天家族产品已经非常丰富,能够满足不同场景的大数据处理需求。


作为目前主流的大数据处理技术,市场上很多公司的大数据业务都是基于Hadoop开展,而且对很多场景已经具有非常成熟的解决方案。


作为开发人员掌握Hadoop及其生态内框架的开发技术,就是进入大数据领域的必经之路。


下面详细介绍一下,学习Hadoop开发技术的路线图。


Hadoop本身是用java开发的,所以对java的支持性非常好,但也可以使用其他语言。


下面的技术路线侧重数据挖掘方向,因为Python开发效率较高所以我们使用Python来进行任务。


因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的知识。


第一阶段:Hadoop生态架构技术


1、语言基础


Java:掌握javase知识,多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。


Linux:系统安装(命令行界面和图形界面)、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。


Python:基础语法,数据结构,函数,条件判断,循环等基础知识。


2、环境准备


这里介绍在windows电脑搭建完全分布式,1主2从。


VMware虚拟机、Linux系统(Centos6.5)、Hadoop安装包,这里准备好Hadoop完全分布式集群环境。


3、MapReduce


MapReduce分布式离线计算框架,是Hadoop核心编程模型。主要适用于大批量的集群任务,由于是批量执行,故时效性偏低。


4、HDFS1.0/2.0


Hadoop分布式文件系统(HDFS)是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。


5、Yarn(Hadoop2.0)


前期了解即可,Yarn是一个资源调度平台,主要负责给任务分配资源。Yarn是一个公共的资源调度平台,所有满足条件的框架都可以使用Yarn来进行资源调度。


6、Hive


Hive是一个数据仓库,所有的数据都是存储在HDFS上的。使用Hive主要是写Hql,非常类似于Mysql数据库的Sql。其实Hive在执行Hql,底层在执行的时候还是执行的MapRedce程序。


7、Spark


Spark 是专为大规模数据处理而设计的快速通用的计算引擎,其是基于内存的迭代式计算。Spark 保留了MapReduce 的优点,而且在时效性上有了很大提高。


8、Spark Streaming


Spark Streaming是实时处理框架,数据是一批一批的处理。


9、Spark Hive


基于Spark的快速Sql检索。Spark作为Hive的计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,可以提高Hive查询的性能。


10、Storm


Storm是一个实时计算框架,和MR的区别就是,MR是对离线的海量数据进行处理,而Storm是对实时新增的每一条数据进行处理,是一条一条的处理,可以保证数据处理的时效性。


11、Zookeeper


Zookeeper是很多大数据框架的基础,它是集群的管理者。监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。


最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户


12、Hbase


Hbase是一个Nosql 数据库,是一个Key-Value类型的数据库,是高可靠、面向列的、可伸缩的、分布式的数据库,适用于非结构化的数据存储,底层的数据存储在HDFS上。


13、Kafka


kafka是一个消息中间件,在工作中常用于实时处理的场景中,作为一个中间缓冲层。


14、Flume


Flume是一个日志采集工具,常见的就是采集应用产生的日志文件中的数据,一般有两个流程。


一个是Flume采集数据存储到Kafka中,方便Storm或者SparkStreaming进行实时处理。


另一个流程是Flume采集的数据存储到HDFS上,为了后期使用hadoop或者spark进行离线处理。


第二阶段:数据挖掘算法


1、中文分词


开源分词库的离线和在线应用


2、自然语言处理


文本相关性算法


3、推荐算法


基于CB、CF,归一法,Mahout应用。


4、分类算法


NB、SVM


5、回归算法


LR、Decision Tree


6、聚类算法


层次聚类、Kmeans


7、神经网络与深度学习


NN、Tensorflow


以上就是学习Hadoop开发的一个详细路线,鉴于篇幅原因只列举和解释了框架作用。


          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved