下载 Hadoop 文件之后，解压之后建议将 Hadoop 的 bin 目录配置到 PATH 环境变量，然后进到 Hadoop 的 conf 目录对 Hadoop 进行伪分布式配置，最简单的是四个配置，配置步骤如下：

(1) 配置 core-site.xml

这个配置是 Hadoop 的核心配置，至少需要配置 HDFS 的地址及端口号，这里使用下面最简单的配置方法：

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000/</value>
    </property>
</configuration>

fs.default.name 用于指定 NameNode 的 IP 地址和端口号，localhost 就是 HDFS NameNode 的地址，9000 是 HDFS 的 NameNode RPC 交互端口。

(2) 配置 hdfs-site.xml

这里主要配置 HDFS 的相关属性参数，简单配置如下：

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///root/hdfs/namenode</value>
        <description>NameNode directory for namespace and transaction logs storage.</description>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///root/hdfs/datanode</value>
        <description>DataNode directory</description>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

dfs.replicationyo 用于指定 HDFS 中每个 Block 块碑复制的次数，起到数据冗余备份的作用。在典型的生产系统中，这个数常被设置为 3，这里是伪分布式，只有一个节点，因此设置为 2。dfs.namenode.name.dir 用于配置 HDFS 的 NameNode 的元数据，以逗号隔开，HDFS 会把元数据冗余复制到这些目录下。dfs.datanode.data.dir 用于配置 HDFS 的 DataNode 的数据目录，以逗号隔开，HDFS 会把数据存在这些目录下。这两个配置默认都在 tmp 目录下，建议用户在配置时使用自己创建的目录即可。

(3) 配置 map-site.xml

配置 map-site.xml 的 d 代码如下：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

这里主要配置 yarn 作为 MapReduce 的配置

(4) 配置 hadoop-env.sh

hadoop-env.sh 用于配置集群特有的变量值，这里至少需要配置 JAVA_HOME 环境变量

Hadoop 的安装与配置

(1) 配置 core-site.xml

(2) 配置 hdfs-site.xml

(3) 配置 map-site.xml

(4) 配置 hadoop-env.sh