【云计算】Hadoop大数据开发学习路线-职坐标

【云计算】Hadoop大数据开发学习路线

小标 2019-01-23 来源：阅读 1353 评论 0

摘要：本文主要向大家介绍了【云计算】Hadoop大数据开发学习路线，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】Hadoop大数据开发学习路线，通过具体的内容向大家展现，希望对大家学习云计算有所帮助。

Hadoop发展到今天家族产品已经非常丰富，能够满足不同场景的大数据处理需求。

作为目前主流的大数据处理技术，市场上很多公司的大数据业务都是基于Hadoop开展，而且对很多场景已经具有非常成熟的解决方案。

作为开发人员掌握Hadoop及其生态内框架的开发技术，就是进入大数据领域的必经之路。

下面详细介绍一下，学习Hadoop开发技术的路线图。

Hadoop本身是用java开发的，所以对java的支持性非常好，但也可以使用其他语言。

下面的技术路线侧重数据挖掘方向，因为Python开发效率较高所以我们使用Python来进行任务。

因为Hadoop是运行在Linux系统上的，所以还需要掌握Linux的知识。

第一阶段：Hadoop生态架构技术

1、语言基础

Java：掌握javase知识，多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以，不需要深入掌握。

Linux：系统安装（命令行界面和图形界面）、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。

Python：基础语法，数据结构，函数，条件判断，循环等基础知识。

2、环境准备

这里介绍在windows电脑搭建完全分布式，1主2从。

VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包，这里准备好Hadoop完全分布式集群环境。

3、MapReduce

MapReduce分布式离线计算框架，是Hadoop核心编程模型。主要适用于大批量的集群任务，由于是批量执行，故时效性偏低。

4、HDFS1.0/2.0

Hadoop分布式文件系统(HDFS)是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

5、Yarn（Hadoop2.0）

前期了解即可，Yarn是一个资源调度平台，主要负责给任务分配资源。Yarn是一个公共的资源调度平台，所有满足条件的框架都可以使用Yarn来进行资源调度。

6、Hive

Hive是一个数据仓库，所有的数据都是存储在HDFS上的。使用Hive主要是写Hql，非常类似于Mysql数据库的Sql。其实Hive在执行Hql，底层在执行的时候还是执行的MapRedce程序。

7、Spark

Spark 是专为大规模数据处理而设计的快速通用的计算引擎，其是基于内存的迭代式计算。Spark 保留了MapReduce 的优点，而且在时效性上有了很大提高。

8、Spark Streaming

Spark Streaming是实时处理框架，数据是一批一批的处理。

9、Spark Hive

基于Spark的快速Sql检索。Spark作为Hive的计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，可以提高Hive查询的性能。

10、Storm

Storm是一个实时计算框架，和MR的区别就是，MR是对离线的海量数据进行处理，而Storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。

11、Zookeeper

Zookeeper是很多大数据框架的基础，它是集群的管理者。监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。

最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户

12、Hbase

Hbase是一个Nosql 数据库，是一个Key-Value类型的数据库，是高可靠、面向列的、可伸缩的、分布式的数据库，适用于非结构化的数据存储，底层的数据存储在HDFS上。

13、Kafka

kafka是一个消息中间件，在工作中常用于实时处理的场景中，作为一个中间缓冲层。

14、Flume

Flume是一个日志采集工具，常见的就是采集应用产生的日志文件中的数据，一般有两个流程。

一个是Flume采集数据存储到Kafka中，方便Storm或者SparkStreaming进行实时处理。

另一个流程是Flume采集的数据存储到HDFS上，为了后期使用hadoop或者spark进行离线处理。

第二阶段：数据挖掘算法

1、中文分词

开源分词库的离线和在线应用

2、自然语言处理

文本相关性算法

3、推荐算法

基于CB、CF，归一法，Mahout应用。

4、分类算法

NB、SVM

5、回归算法

LR、Decision Tree

6、聚类算法

层次聚类、Kmeans

7、神经网络与深度学习

NN、Tensorflow

以上就是学习Hadoop开发的一个详细路线，鉴于篇幅原因只列举和解释了框架作用。

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道！

大数据论文大数据培训大数据平台

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

大数据云计算 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

黄骈联系TA

认证System Analyst，System Architect

张浩联系TA

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

大数据安全30天热搜词更多>>

sap云计算解决方案 openstack学习路线超融合与云计算的区别云计算关键技术 ibm云计算解决方案电子科技大学云计算技术与应用云计算概念云平台三层架构云计算中心建设方案云计算视频教程云计算技术是什么云计算主机安全云计算的核心技术云计算安全体系架构云计算架构图云计算安全解决方案云计算就业岗位有什么? 云计算技术与应用就业云计算的应用领域云计算技术与应用大专