摘要:本文主要向大家介绍了【云计算】HDFSshell命令以及JavaAPI操作教程,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。
本文主要向大家介绍了【云计算】HDFSshell命令以及JavaAPI操作教程,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。
1.前置要求
大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建
前面已经搭建好了Hadoop和HDFS的环境,接下来我们用shell命令对文件系统进行操作。
2.HDFS shell常用命令
常用的有:ls、mkdir、put、get、rm,和Linux的命令差不多。
我们首先启动HDFS,启动方式前面也说过了。因为我们前面已经配置了Hadoop的环境变量。所以我们就可以开始操作了。
我们在任意目录下,输入“hadoop fs -ls /”,我们就可以查看到HDFS的“/“(根目录)目录下的内容了。
如果我们想把虚拟机的文件传到HDFS中,只需要输入“hadoop fs -put ~/data/hello.txt /”,这句话的意思就是:把 ~/data/hello.txt 这个文件传到HDFS的“/”目录下。然后我们用“hadoop fs -ls /”命令可以查看一下是否传输成功了。如果我们想查看这个文件的内容,可以输入"hadoop fs -text /hello.txt",这句话就是,查看上传到HDFS中的根目录下的hello.txt的内容。
如果我们想在HDFS上创建一个目录,“hadoop fs -mkdir /test”,这句话就是在根目录下创建一个test文件夹,我们可以再用“hadoop fs -ls /”来查看一下是否创建成功。如果你要递归创建文件夹,“hadoop fs -mkdir -p /a/b”,这句话可以让我们先在根目录下创建a文件夹,然后继续在a目录下创建一个b文件夹。
如果你要查看HDFS中所有文件(文件夹)的路径,"hadoop fs -lsr /",这句话就是递归查出根目录下的所有内容(文件和文件夹)。
如果你想把HDFS上的文件拷到本地,“hadoop fs -get /hello.txt”,这句话就是把hello.txt拷贝到本地当前的目录中。
如果想删除HDFS上的文件,“hadoop fs -rm /hello.txt”,删除文件夹的话,"hadoop fs -rm -R /test",递归删除/test文件夹下的所有内容。
3.Java API对HDFS的操作
注意啦,这个时候我们就不用虚拟机了,而是在本地(Windows)中进行Java代码的编写,不过要保证我们虚拟机上HDFS系统是开启的。我们这里写Java选用的是IDE是 IntelliJ IDEA,然后Maven版本是3.5.2。
我们首先新建一个Maven项目,勾选maven-archetype-quickstart即可。生成项目之后,我们先进入pom.xml文件中,修改一下这个文件的部分内容。修改为如下即可。其他的暂时不动。
UTF-8
1.8
1.8
2.6.0-cdh5.7.0
cloudera
https://repository.cloudera.com/artifactory/cloudera-repos
org.apache.hadoop
hadoop-client
${hadoop.version}
provided
junit
junit
4.11
test
注意:如果我们maven里面用的是阿里的仓库,那么还需要改maven的settings.xml文件,修改为如下。否则可能会无法从导入cdh版本的相关依赖。
nexus-aliyun
*,!cloudera
Nexus aliyun
//maven.aliyun.com/nexus/content/groups/public
好了,接下来我们写几个测试方法(这是一个测试类哦)。
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.net.URI;
/**
* Hadoop HDFS Java API 操作
*/
public class HDFSApp {
//这里的ip就是你虚拟机的ip,也可以写虚拟机ip所对应的主机名
public static final String HDFS_PATH = "hdfs://192.168.6.130:8020";
//public static final String HDFS_PATH = "hdfs://hadoop000:8020"; //也是可以的
FileSystem fileSystem = null;
Configuration configuration = null;
//在调用测试方法之前调用,加载相关配置信息
//"Kiku"这个参数特别重要,它是你虚拟机当前用户的用户名,因为我的是Kiku用户,所以是Kiku
//其实就是你的Linux系统终端指令的第一个"@"符号前面的那个单词
@Before
public void setUp() throws Exception {
System.out.println("HDFSApp.setUp");
configuration = new Configuration();
fileSystem = FileSystem.get(new URI(HDFS_PATH), configuration, "Kiku");
}
//在测试结束之后调用,清空资源
@After
public void tearDown() throws Exception {
configuration = null;
fileSystem = null;
System.out.println("HDFSApp.tearDown");
}
/**
* 创建HDFS目录
* @throws Exception
*/
@Test
public void mkdir() throws Exception {
fileSystem.mkdirs(new Path("/hdfsapi/test"));
}
/**
* 创建文件
* @throws Exception
*/
@Test
public void create() throws Exception {
FSDataOutputStream output = fileSystem.create(new Path("/hdfsapi/test/a.txt"));
output.write("hello hadoop".getBytes());
output.flush();
output.close();
}
/**
* 查看HDFS文件的内容
* @throws Exception
*/
@Test
public void cat() throws Exception {
FSDataInputStream in = fileSystem.open(new Path("/hdfsapi/test/b.txt"));
IOUtils.copyBytes(in, System.out, 1024);
in.close();
}
/**
* 文件重命名
* @throws Exception
*/
@Test
public void rename() throws Exception {
Path oldPath = new Path("/hdfsapi/test/a.txt");
Path newPath = new Path("/hdfsapi/test/b.txt");
fileSystem.rename(oldPath, newPath);
}
/**
* 上传文件到HDFS
* @throws Exception
*/
@Test
public void copyFromLocalFile() throws Exception {
Path localPath = new Path("D:/bigdata/data.txt");
Path hdfsPath = new Path("/hdfsapi/test/");
fileSystem.copyFromLocalFile(localPath, hdfsPath);
}
/**
* 上传文件到HDFS,带有进度条
* @throws Exception
*/
@Test
public void copyFromLocalFileWithProgress() throws Exception {
InputStream in = new BufferedInputStream(
new FileInputStream(
new File("D:/VMwareworkstation1252.zip")));
FSDataOutputStream output = fileSystem.create(new Path("/hdfsapi/test/VMware.zip"),
new Progressable() {
public void progress() {
System.out.print("."); //带进度提醒信息
}
});
IOUtils.copyBytes(in, output, 4096);
}
/**
* 下载HDFS文件到本地
* @throws Exception
*/
@Test
public void copyToLocalFile() throws Exception {
Path localPath = new Path("D:/helloHadoop.txt");
Path hdfsPath = new Path("/hdfsapi/test/b.txt");
fileSystem.copyToLocalFile(false, hdfsPath, localPath, true);
}
/**
* 查看某个目录下的所有文件
* @throws Exception
*/
@Test
public void listFiles() throws Exception {
FileStatus[] fileStatuses = fileSystem.listStatus(new Path("/hdfsapi/test"));
for (FileStatus fileStatus : fileStatuses) {
String isDir = fileStatus.isDirectory() "文件夹" : "文件";
short replication = fileStatus.getReplication(); //副本数量
long len = fileStatus.getLen(); //大小
String path = fileStatus.getPath().toString();
System.out.println("isDir:" + isDir + "\treplication:" + replication + "\tlen:" + len + "\tpath:" + path);
}
}
/**
* 删除文件,默认参数为true,进行递归删除
* @throws Exception
*/
@Test
public void delete() throws Exception {
fileSystem.delete(new Path("/hdfsapi/test/"), true);
}
}
4.HDFS工作原理
登场人物 ==> 用户(HDFS shell命令、Java API等操作);Client(向HDFS发起读写请求的客户端);NameNode(唯一的领导,负责全局协调,把控请求);DataNode(一堆的DataNode,负责数据的存储)。
写数据流程
用户:我要写200MB的数据
Client:很荣幸为你服务,但是你是不是忘记告诉我一些东西啊?
用户:哦!对了,我要求每个Block是128MB,以3个副本的方式存储。(这个其实是写在了配置文件中)
Client:我先按照你的Block的大小要求,把文件拆分成多个Block。然后发起请求(请写一个128MB的Block,副本系数为3)给NameNode。
NameNode:你既然要三个副本,那我先找三个DataNode。好了我给你找了3个DataNode:DataNode1、DataNode2、DataNode3(按照距离远近进行了排序)。
Client:行,我先把数据发到第一个DataNode上面。
DataNode1:在接受数据的同时,我还要发给第二个DataNode
DataNode2:好了,我再把这份数据发给第三个DataNode
DataNode1、DataNode2、DataNode3:NameNode呀,我们的Block已经存储完了。
NameNode:好了,第一个块已经写完了。
Client:行,那我对剩下的块进行相同的操作就行。
-------- 当全部存完的时候,Client与NameNode的连接中断,NameNode磁盘或内存里存有一份元数据(哪一个Block放在了哪几个DataNode上)--------
读数据流程
用户:我要读某个文件,文件名是fileName
Client:NameNode请给我,文件名是fileName的这个文件的元数据信息
NameNode:好的,我会告诉你这个文件的一系列Block,以及每个Block所存放的DataNode(经过排序)
Client:好了,我知道这个文件需要多少个Block,以及分别存放在了哪个DataNode上了。
-------- 然后Client就直接和DataNode进行交互就行了,Client向DataNode发起请求,要哪个Block,DataNode就会把这个Block传给Client --------
5.HDFS优缺点
优点:数据冗余、硬件容错。处理流式的数据访问(一次写入多次读取)。适合存储大文件。可构建在廉价的机器上。
缺点:低延迟的数据访问(延迟性比较大)。不适合小文件存储(一个小文件存入,就会有一条元数据信息在内存中,如果小文件太多,对于NameNode的压力就会比较大)。
本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号