一、配置Hadoop的环境变量,便于在任意位置执行命令
更改完之后source,使环境变量生效
二、hdfs命令
-
NameNode:
1 管理整个集群
2 维护目录结构,命名空间,存储集群文件的元信息。元信息:文件的属性,路径,大小,在DN上的位置信息等。
3 接收和处理用户操作请求。 -
datanode:存储真实的数据。
最小的存储单位:block,是逻辑上的划分,不占全部存储空间。
默认大小是:128M。
Replication 默认是3.是对blk的备份。 -
hdfs是一个分布式文件系统。一种系统管理多台机器上的文件
-
分布式文件系统很多,hdfs只是其中一种,且hdfs不适合小文件的存储
-
hdfs命令和linux基本一致:只需加上 hadoop fs 或者是hdfs dfs
-
hdfs中根目录是 / 和Linux本地没有关系
在hdfs中创建一个目录
hadoop fs -mkdir /data
将Linux的文件上传至hdfs
- 上传的数据存在datanode里面
hadoop fs -put student.txt /data
查看hdfs中的文件
hadoop fs -cat /data/student.txt
删除hdfs中的文件
hadoop fs -rmr /data/student.txt