下载 Hadoop 文件之后,解压之后建议将 Hadoop 的 bin 目录配置到 PATH 环境变量,然后进到 Hadoop 的 conf 目录对 Hadoop 进行伪分布式配置,最简单的是四个配置,配置步骤如下:
(1) 配置 core-site.xml
这个配置是 Hadoop 的核心配置,至少需要配置 HDFS 的地址及端口号,这里使用下面最简单的配置方法:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000/</value>
</property>
</configuration>
fs.default.name 用于指定 NameNode 的 IP 地址和端口号,localhost 就是 HDFS NameNode 的地址,9000 是 HDFS 的 NameNode RPC 交互端口。
(2) 配置 hdfs-site.xml
这里主要配置 HDFS 的相关属性参数,简单配置如下:
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///root/hdfs/namenode</value>
<description>NameNode directory for namespace and transaction logs storage.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///root/hdfs/datanode</value>
<description>DataNode directory</description>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
dfs.replicationyo 用于指定 HDFS 中每个 Block 块碑复制的次数,起到数据冗余备份的作用。在典型的生产系统中,这个数常被设置为 3,这里是伪分布式,只有一个节点,因此设置为 2。dfs.namenode.name.dir 用于配置 HDFS 的 NameNode 的元数据,以逗号隔开,HDFS 会把元数据冗余复制到这些目录下。dfs.datanode.data.dir 用于配置 HDFS 的 DataNode 的数据目录,以逗号隔开,HDFS 会把数据存在这些目录下。这两个配置默认都在 tmp 目录下,建议用户在配置时使用自己创建的目录即可。
(3) 配置 map-site.xml
配置 map-site.xml 的 d 代码如下:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
这里主要配置 yarn 作为 MapReduce 的配置
(4) 配置 hadoop-env.sh
hadoop-env.sh 用于配置集群特有的变量值,这里至少需要配置 JAVA_HOME 环境变量