# node1 做完后 rsync 到 node2/node3（示意） tar -xf hadoop...

Question

node1 做完后 rsync 到 node2/node3（示意）

tar -xf hadoop-2.7.3.tar.gz -C /opt/hadoop-fs1 --strip-components=1
tar -xf hadoop-2.7.3.tar.gz -C /opt/hadoop-fs2 --strip-components=1

具体是怎么rsync？ hadoop 需要三个节点上都有 hadoop-fs1，2文件夹吗

Answer 1

下面一步步给你说明 rsync 的具体用法，以及 Hadoop 目录在 3 个节点上的要求，按你现在的场景来讲。

一、Hadoop 需要几个节点？目录要不要都有？

👉 结论先说：需要。

如果你是一个标准的 Hadoop 集群（NameNode + DataNode）：

node1 / node2 / node3 上都必须安装 Hadoop
路径最好完全一致（否则要改一堆配置）

也就是说，在 每个节点上都应该有：

bash
/opt/hadoop-fs1
/opt/hadoop-fs2

这些目录用于：

HDFS 的 dfs.data.dir
或 NameNode / DataNode 的本地存储

✔ 即使 node2 / node3 只是 DataNode，也 必须有 Hadoop 程序本身 + 数据目录

二、正确的安装顺序（推荐）

① 在 node1 上解压 Hadoop（你已经做了）

bash
mkdir -p /opt/hadoop-fs1 /opt/hadoop-fs2

tar -xf hadoop-2.7.3.tar.gz -C /opt/hadoop-fs1 --strip-components=1
tar -xf hadoop-2.7.3.tar.gz -C /opt/hadoop-fs2 --strip-components=1

一般只需要 一个 Hadoop 安装目录（例如 /opt/hadoop），
hadoop-fs1 / fs2 更多是 数据目录，但你既然这么分，就保持一致即可。

三、rsync 的具体做法（重点）

1️⃣ 确保 SSH 免密登录已配置

在 node1 上测试：

bash
ssh node2 hostname
ssh node3 hostname

如果还要输密码，先做：

bash
ssh-keygen
ssh-copy-id node2
ssh-copy-id node3

2️⃣ rsync Hadoop 目录到 node2 / node3

同步 hadoop-fs1

bash
rsync -av /opt/hadoop-fs1/ node2:/opt/hadoop-fs1/
rsync -av /opt/hadoop-fs1/ node3:/opt/hadoop-fs1/

同步 hadoop-fs2

bash
rsync -av /opt/hadoop-fs2/ node2:/opt/hadoop-fs2/
rsync -av /opt/hadoop-fs2/ node3:/opt/hadoop-fs2/

📌 注意两个关键点：

源路径后面的 / 不能少

bash
/opt/hadoop-fs1/   ✅
/opt/hadoop-fs1    ❌（会多套一层目录）

3️⃣ 一次性写成脚本（推荐）

在 node1 上：

bash
for host in node2 node3
do
  rsync -av /opt/hadoop-fs1/ $host:/opt/hadoop-fs1/
  rsync -av /opt/hadoop-fs2/ $host:/opt/hadoop-fs2/
done

四、权限问题（非常重要）

Hadoop 运行用户（比如 hadoop）在所有节点上必须一致。

bash
chown -R hadoop:hadoop /opt/hadoop-fs1 /opt/hadoop-fs2

如果你用的是 root 启动 Hadoop，后期会踩坑，强烈建议用普通用户。

五、快速自检清单

在 node2 / node3 上检查：

bash
ls /opt/hadoop-fs1
ls /opt/hadoop-fs2

/opt/hadoop-fs1/bin/hadoop version

能正常输出版本，说明同步成功 ✅

六、常见误区总结

❌ 只在 NameNode 上装 Hadoop
❌ 三个节点 Hadoop 路径不一致
❌ rsync 少了尾部 /
❌ 没做 SSH 免密

如果你愿意，可以把你现在的 角色分配（哪台是 NN / DN）
或者 hdfs-site.xml 的配置贴出来，我可以帮你对着目录结构检查一遍是否合理。

Answer 2

报错的原因很直接：目标端要创建的目录的“父目录”不存在。

你这句报错：

rsync: mkdir "/export/jcloud-hadoop/hadoop-2.7.3-fs2" failed: No such file or directory (2)

说明在 接收端（node2/node3） 上，/export/jcloud-hadoop 这个目录不存在（或路径写错/没挂载成功），所以 rsync 没法在里面 mkdir hadoop-2.7.3-fs2。

1）先在目标机器上确认父目录是否存在

在 node2（node3 同理）执行：

bash
ls -ld /export
ls -ld /export/jcloud-hadoop

如果第二条不存在，就需要先建父目录：

bash
sudo mkdir -p /export/jcloud-hadoop

然后再 rsync。

2）正确的 rsync 写法（推荐先建目录再同步）

在 node1 上对 node2/node3 执行：

bash
ssh node2 "sudo mkdir -p /export/jcloud-hadoop/hadoop-2.7.3-fs2"
ssh node3 "sudo mkdir -p /export/jcloud-hadoop/hadoop-2.7.3-fs2"

rsync -av /opt/hadoop-fs2/ node2:/export/jcloud-hadoop/hadoop-2.7.3-fs2/
rsync -av /opt/hadoop-fs2/ node3:/export/jcloud-hadoop/hadoop-2.7.3-fs2/

关键点：rsync 可以创建最后一层目录，但父目录必须存在（你这里缺的是父目录）。

3）如果是权限问题，也会类似踩坑

如果 /export/jcloud-hadoop 存在但你不是 root，可能会因为权限失败（一般会报 Permission denied，不过也建议检查）：

bash
ls -ld /export/jcloud-hadoop

需要的话：

bash
sudo chown -R $USER:$USER /export/jcloud-hadoop

或者 rsync 用 sudo（常见做法是远端 sudo）：

bash
rsync -av --rsync-path="sudo rsync" /opt/hadoop-fs2/ node2:/export/jcloud-hadoop/hadoop-2.7.3-fs2/

4）还有一种高频原因：/export 是挂载点但没挂载成功

如果你们的 /export 是 NFS/磁盘挂载点，目标机没挂上也会导致目录不存在。

在 node2 上：

bash
mount | grep " /export "
df -h /export

如果没输出/显示不对，先把挂载问题处理好。

把你执行的那条 rsync 原命令贴一下（包含源路径和目标路径），我可以直接指出你需要在哪一端 mkdir -p，以及路径尾部 / 要怎么写才不会多套一层目录。

Answer 3

jdk1.8.0_60.tar.gz 是 tar + gzip 压缩包，用一条命令就能解压 👍
我分 最常见 / 指定目录 / 常见坑 给你说明。

一、最常见的解压方式（当前目录）

bash
tar -zxvf jdk1.8.0_60.tar.gz

参数含义（记一下就不容易忘）：

z：gzip（.gz）
x：解压
v：显示过程（可选）
f：指定文件

解压后一般会得到：

bash
jdk1.8.0_60/

二、解压到指定目录（推荐用于 Hadoop/JDK）

比如你想放到 /export/jcloud-jdk 或 /opt/java：

bash
mkdir -p /export/jcloud-jdk
tar -zxvf jdk1.8.0_60.tar.gz -C /export/jcloud-jdk

解压后路径会是：

bash
/export/jcloud-jdk/jdk1.8.0_60

三、去掉最外层目录（可选）

如果你 不想要 jdk1.8.0_60 这一层目录，可以用：

bash
mkdir -p /export/jcloud-jdk
tar -zxvf jdk1.8.0_60.tar.gz -C /export/jcloud-jdk --strip-components=1

⚠️ 一般 不建议 JDK 用 --strip-components，保留版本目录更安全。

四、解压前先看看包里有什么（很实用）

bash
tar -ztvf jdk1.8.0_60.tar.gz | head

确认是不是 jdk1.8.0_60/ 开头。

五、解压后常规操作（Hadoop 必做）

1️⃣ 配 JAVA_HOME

bash
vi /etc/profile

加上：

bash
export JAVA_HOME=/export/jcloud-jdk/jdk1.8.0_60
export PATH=$JAVA_HOME/bin:$PATH

生效：

bash
source /etc/profile

2️⃣ 验证

bash
java -version

应该看到：

text
java version "1.8.0_60"

六、和你 Hadoop 集群的关系（重点）

👉 JDK 必须在每个 Hadoop 节点都安装，路径保持一致

推荐做法（和你刚才 rsync 思路一样）：

bash
rsync -av /export/jcloud-jdk/jdk1.8.0_60/ node2:/export/jcloud-jdk/jdk1.8.0_60/
rsync -av /export/jcloud-jdk/jdk1.8.0_60/ node3:/export/jcloud-jdk/jdk1.8.0_60/

如果你愿意，下一步我可以帮你：

✅ 检查 JAVA_HOME + Hadoop 是否匹配
✅ 帮你写 一次性 JDK + Hadoop 的 rsync 脚本
✅ 对照 Hadoop 2.7.3 给你一套 完整推荐目录结构

你现在是 root 还是普通用户装 JDK？

Answer 4

你这个拓扑其实是 同一套物理 3 台机器上跑两套 HDFS（fs1 / fs2）+ 一套或两套 YARN 的典型“多实例/多集群”做法。问题你问得非常关键，我按你列的角色逐条把 hdfs-site.xml / core-site.xml 是否都要改、端口是否要不同、哪些能一样、哪些必须不同 讲清楚。

0️⃣ 先给结论（你最关心的）

✅ 3 个节点上运行 fs1 的那些角色 → 都必须使用 fs1 的 core-site.xml + hdfs-site.xml
✅ 3 个节点上运行 fs2 的那些角色 → 都必须使用 fs2 的 core-site.xml + hdfs-site.xml

也就是说：不是只改 NameNode 那台，凡是这个集群的 DN/NM/Client 所在机器，都要用对应集群的配置。

1️⃣ fs1 的 3 个节点都要改 core-site.xml / hdfs-site.xml 吗？

你的 fs1 参与节点是：

node1：NN(fs1) + DN + NM + RM
node2：DN + NM（同时还有 NN(fs2)）
node3：DN + NM（同时有 RM）

✅ 只要 node2 / node3 上跑 fs1 的 DataNode，它们就必须拥有 fs1 的配置文件，因为 DataNode 需要知道：

fs.defaultFS（连哪个 NameNode）
dfs.data.dir（数据目录位置）
甚至 HA/安全/权限等

📌 所以 fs1 的 core-site.xml & hdfs-site.xml 必须分发到 node1 node2 node3。

2️⃣ 同理：fs2 的 3 个节点都要改吗？

fs2 参与节点是：

node2：NN(fs2) + DN + NM
node1：DN + NM（你写了 DN1/DN2）
node3：DN + NM

✅ 同样，fs2 的 core-site.xml / hdfs-site.xml 也必须在 node1 node2 node3 都存在（只要这些节点上跑 fs2 的 DataNode）。

3️⃣ 既然两套 HDFS（fs1/fs2）都在同一批机器上跑：端口要不要不同？

✅ 结论：HDFS 端口必须不同（至少涉及 NameNode/Secondary/HTTP/RPC…）

原因：同一台机器上如果你要同时跑：

fs1 的 DN
fs2 的 DN

那么这两个 DataNode 默认都会用同样的端口（例如 DataNode 的 IPC、数据传输端口、http端口），必冲突！

4️⃣ 哪些端口必须不同？（最关键）

✅ NameNode（RPC + Web）端口

fs1 默认：

8020（RPC）
9870（Web UI，2.x 常见是 50070/9870） fs2 你必须改成：
8021 或 9000 等
9871 或 50071 等

✅ DataNode 的端口（最容易忘）

同一台机器上跑两个 DataNode（fs1 和 fs2）时，以下端口必须不同：

dfs.datanode.address（数据传输端口，默认 9866/50010）
dfs.datanode.ipc.address（IPC 端口，默认 9867/50020）
dfs.datanode.http.address（HTTP，默认 9864/50075）
dfs.datanode.https.address（如果启用 https）

✅ 所以在 fs2 的 hdfs-site.xml 里要改成另一套端口，例如：

fs1：

9866/9867/9864

fs2：

9966/9967/9964

✅ NameNode 的数据目录要不同（必须）

fs1：

dfs.namenode.name.dir=/opt/hadoop-fs1/nn fs2：
dfs.namenode.name.dir=/opt/hadoop-fs2/nn

否则两套 HDFS 写同一个 metadata，直接炸。

✅ DataNode 数据目录要不同（必须）

fs1：

dfs.datanode.data.dir=/opt/hadoop-fs1/dn1,/opt/hadoop-fs1/dn2 fs2：
dfs.datanode.data.dir=/opt/hadoop-fs2/dn1,/opt/hadoop-fs2/dn2

5️⃣ core-site.xml 是否也需要分两套？（必须）

因为 fs.defaultFS 一定不同：

fs1：

xml
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://node1:8020</value>
</property>

fs2：

xml
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://node2:8021</value>
</property>

只要你机器上同时作为两个集群的 DataNode/Client，必须通过不同启动脚本/不同 Hadoop_HOME 来加载不同 core-site.xml。

6️⃣ 你现在这个角色安排里有一个明显风险：node1 和 node2 上都是 “DN1/DN2”

你写的是：

node1：DN1/DN2
node2：DN1/DN2
node3：DN1/DN2

这意味着你准备每台机器跑 2 个 DataNode 进程？
还是你想表达一台机器给 DataNode 配两个数据目录？

这两者完全不同：

✅ 推荐（简单且正确）：每台机器只跑一个 DataNode，配置两个数据目录

例如：

xml
dfs.datanode.data.dir=/opt/hadoop-fs1/dn1,/opt/hadoop-fs1/dn2

这样一个 DataNode 管两个盘/目录，不会端口冲突。

❌ 不推荐：一台机器跑多个 DataNode 进程（DN1 DN2 两进程）

这就必须为每个 DataNode 进程配置独立端口、独立 PID 目录、独立日志目录，非常容易乱。

✅ 所以你写 DN1/DN2，我强烈建议理解为“两个数据目录”，而不是“两个 DataNode 进程”。

7️⃣ YARN (RM) 你现在有两个 RM：node1 和 node3

你写：

node1：RM(YARN)
node3：RM

⚠️ 如果你是想做 YARN HA（双RM），可以，但需要配置 RM HA（ZKFC/自动切换等）；如果不是 HA，而是你想 两套 YARN 分别对应 fs1 / fs2，那也行，但必须端口不同。

✅ 你得明确：
你到底是：

一套 YARN，node1 active，node3 standby（HA）
还是
两套 YARN（跟 fs1/fs2 两套 HDFS 一起）

8️⃣ 一句话总结你该怎么做（最实用）

✅ 必须做两套完整 Hadoop 配置和目录 建议目录结构：

text
/opt/hadoop-fs1   （跑 fs1 的 HDFS + 可能也跑 yarn1）
/opt/hadoop-fs2   （跑 fs2 的 HDFS + 可能也跑 yarn2）

每套里面都有自己的：

etc/hadoop/core-site.xml
etc/hadoop/hdfs-site.xml
logs/
pids/
tmp/

并且端口不冲突。

9️⃣ 你问的“fs2 端口需要和 fs1 完全不一样吗？”

✅ HDFS 所有会监听的端口必须不同
也就是说：

NameNode RPC
NameNode web
DataNode 3 个端口
SecondaryNameNode（如果有）
JournalNode（如果有）
HTTPFS（如果有）
YARN RM/NM（如果跑两套）

不然一启动就报 Address already in use。

🔥 我建议你下一步做两件事（我可以继续帮你）

你贴一下 fs1 的 core-site.xml/hdfs-site.xml（关键部分即可）
再贴一下你准备给 fs2 的配置

我可以帮你直接生成：

✅ 一套 fs1/fs2 完整端口规划表
✅ 两套 最小差异配置模板（只改必要项）
✅ node1/node2/node3 的启动顺序、脚本命令（含格式化、启动、验证）

你要不要按 “两套 HDFS + 一套 YARN” 还是 “两套 HDFS + 两套 YARN” 来做？我可以按你选的方案给你完整配置。

Answer 5

对的：刚解压出来的 Hadoop，core-site.xml 和 hdfs-site.xml 默认就是几乎空的（只有 XML 头和 <configuration></configuration>）。需要你自己把集群参数填进去。

Hadoop 的“模板”不在这两个 *-site.xml 里，而是在同目录的：

core-default.xml
hdfs-default.xml

它们包含所有可用参数 + 默认值（很长），你可以用它当“参数字典”。真正生效的是你写在 core-site.xml / hdfs-site.xml 里的覆盖项。

你这个“双 HDFS（fs1/fs2）同机共存”的推荐做法

最稳的做法是：两套 Hadoop_HOME（你现在就是 /opt/hadoop-fs1、/opt/hadoop-fs2），每套各自一份 etc/hadoop/*.xml，端口/目录互不冲突。

下面给你一套可以直接抄的最小配置（按你角色：node1=NN(fs1)，node2=NN(fs2)，三台都有 DN）。

假设 Hadoop 2.7.3，且每台机器每套 HDFS 只跑 1 个 DataNode 进程（但 DataNode 用两个数据目录 dn1/dn2，这样不会搞多进程端口地狱）。

1) fs1：`/opt/hadoop-fs1/etc/hadoop/core-site.xml`

xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:8020</value>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-fs1/tmp</value>
  </property>
</configuration>

2) fs1：`/opt/hadoop-fs1/etc/hadoop/hdfs-site.xml`

xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>

  <!-- NameNode 元数据目录：只在 node1 上真正用到，但配置可以分发到所有节点 -->
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/opt/hadoop-fs1/nn</value>
  </property>

  <!-- DataNode 数据目录：三台机器都要有 -->
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/opt/hadoop-fs1/dn1,file:/opt/hadoop-fs1/dn2</value>
  </property>

  <!-- fs1 DataNode 端口（整套 HDFS1 用这一组） -->
  <property>
    <name>dfs.datanode.address</name>
    <value>0.0.0.0:9866</value>
  </property>
  <property>
    <name>dfs.datanode.ipc.address</name>
    <value>0.0.0.0:9867</value>
  </property>
  <property>
    <name>dfs.datanode.http.address</name>
    <value>0.0.0.0:9864</value>
  </property>

  <!-- fs1 NameNode Web UI（2.7 常见默认是 50070；你可固定一个避免冲突） -->
  <property>
    <name>dfs.namenode.http-address</name>
    <value>node1:50070</value>
  </property>
</configuration>

3) fs2：`/opt/hadoop-fs2/etc/hadoop/core-site.xml`

xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node2:8021</value>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-fs2/tmp</value>
  </property>
</configuration>

4) fs2：`/opt/hadoop-fs2/etc/hadoop/hdfs-site.xml`

xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>

  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/opt/hadoop-fs2/nn</value>
  </property>

  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/opt/hadoop-fs2/dn1,file:/opt/hadoop-fs2/dn2</value>
  </property>

  <!-- fs2 DataNode 端口必须和 fs1 不同（同机两套 DN 必然冲突） -->
  <property>
    <name>dfs.datanode.address</name>
    <value>0.0.0.0:9966</value>
  </property>
  <property>
    <name>dfs.datanode.ipc.address</name>
    <value>0.0.0.0:9967</value>
  </property>
  <property>
    <name>dfs.datanode.http.address</name>
    <value>0.0.0.0:9964</value>
  </property>

  <property>
    <name>dfs.namenode.http-address</name>
    <value>node2:50071</value>
  </property>
</configuration>

5) 三台机器都要创建这些目录（两套都要有）

在 node1/node2/node3 都执行（或 rsync 前先 mkdir）：

bash
mkdir -p /opt/hadoop-fs1/{tmp,dn1,dn2,nn,logs}
mkdir -p /opt/hadoop-fs2/{tmp,dn1,dn2,nn,logs}

注意：nn 目录只有 NN 那台会真正写，但目录存在不碍事；或者你也可以只在 NN 上建 nn。

6) “他有模板吗”怎么用？

你可以这样看默认模板（就是参数说明书）：

bash
cd /opt/hadoop-fs1/etc/hadoop
ls *default.xml
# core-default.xml / hdfs-default.xml

grep -n "fs.defaultFS" core-default.xml | head
grep -n "dfs.datanode.address" hdfs-default.xml | head

真实修改就是：*把你需要覆盖的 property 写进 -site.xml。

7) 一个很重要的提醒（避免你后面一定踩坑）

你现在这套架构如果要在同一台机器上同时跑 fs1 的 DN + fs2 的 DN：

必须保证两套 Hadoop 的 pid/log/tmp 目录互不影响
最简单：两套 Hadoop_HOME 分开，并且 hadoop.tmp.dir 分开（上面已做）

另外：你写的 “DN1/DN2” 我强烈建议理解为“两个数据目录”，不要搞成“两进程 DataNode”。

如果你把三台机器的主机名/IP（node1/node2/node3 对应哪个）和你准备的启动方式（用哪个 sbin/start-dfs.sh、是否同时启动两套）发我一眼，我可以再给你一份启动顺序（fs1 format -> start fs1 -> fs2 format -> start fs2）以及一份检查端口冲突的命令清单。

Answer 6

对，刚开始最小可用的 core-site.xml 基本就这两项就能跑起来（fs.defaultFS + hadoop.tmp.dir）。其他的都可以先不写，等你需要 HA、安全、压缩、回收站、NFS/S3 等再加。

你没在“原始文件”里看到模板，是因为：

core-site.xml / hdfs-site.xml 这些 *-site.xml 本来就是空壳（给你覆盖配置用）
真正“模板/参数全集”在同目录的 core-default.xml / hdfs-default.xml
- 它们很长，里面是所有参数的默认值和说明

1) 你的 core-site 只要这些吗？

最小可用：是的。（尤其你现在只是让 HDFS 跑起来）

fs1 的 core-site 最小示例（你写的没问题）：

xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:8020</value>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/data/hadoop-2.7.3-fs1/tmp</value>
  </property>
</configuration>

fs2 也同理，只是改 fs.defaultFS 和 tmp 路径：

xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node2:8021</value>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/data/hadoop-2.7.3-fs2/tmp</value>
  </property>
</configuration>

关键点：fs1 / fs2 的 hadoop.tmp.dir 必须不同（你已经分开了 👍）

2) 你说“原始文件上没看见模板”——去哪里找？

在 etc/hadoop/ 目录下执行：

bash
ls -1 /data/hadoop-2.7.3-fs1/etc/hadoop/*default.xml
# 会看到 core-default.xml  hdfs-default.xml  yarn-default.xml  mapred-default.xml

想查某个参数默认值/说明：

bash
grep -n "fs.defaultFS" /data/hadoop-2.7.3-fs1/etc/hadoop/core-default.xml | head
grep -n "hadoop.tmp.dir" /data/hadoop-2.7.3-fs1/etc/hadoop/core-default.xml | head

3) 你现在更容易踩坑的点（提醒你别卡住）

因为你是同一批机器上跑两套 HDFS（fs1/fs2），core-site.xml 虽然最小两项够，但你必须确保：

fs1 / fs2 各自的 HDFS 端口在 hdfs-site.xml 里不冲突
fs1 / fs2 各自的数据目录不冲突（dn/nn/tmp 都要分开）

否则后面一启动就会 Address already in use 或数据目录混了。

如果你把 fs1 的 hdfs-site.xml 你打算怎么写（至少贴：dfs.namenode.name.dir、dfs.datanode.data.dir、以及你准备的 DN 端口设置）发出来，我可以直接帮你把 fs2 那份按“不冲突”的端口/目录一键改好。

Answer 7

正常的：Hadoop 2.7.3 的二进制发行包里，很多情况下不会把 core-default.xml / hdfs-default.xml 以“文件”的形式放在 etc/hadoop/ 下面。这些“默认参数全集”经常是打包在 jar 里作为资源文件 的，所以你 ls /etc/hadoop/*default.xml 会找不到。

下面给你 3 种最靠谱的找法（按顺序来）：

1）先用 find 全盘找（最简单）

在你的 Hadoop_HOME（例如 /data/hadoop-2.7.3-fs1）里：

bash
cd /data/hadoop-2.7.3-fs1
find . -name "*default.xml" -maxdepth 6

如果发行包里有独立文件，就会直接搜到。

2）通常在 jar 里：用 `jar tf` 查（最常见）

Hadoop 2.7.3 一般在这些 jar 里能找到默认配置资源：

share/hadoop/common/hadoop-common-2.7.3.jar
share/hadoop/hdfs/hadoop-hdfs-2.7.3.jar

先定位 jar：

bash
cd /data/hadoop-2.7.3-fs1
ls share/hadoop/common/hadoop-common-*.jar
ls share/hadoop/hdfs/hadoop-hdfs-*.jar

然后查里面有没有 core-default.xml：

bash
jar tf share/hadoop/common/hadoop-common-*.jar | grep -E "core-default.xml|core-site.xml" | head
jar tf share/hadoop/hdfs/hadoop-hdfs-*.jar     | grep -E "hdfs-default.xml|hdfs-site.xml" | head

一般你会看到类似：

core-default.xml
hdfs-default.xml

3）把默认文件从 jar 解出来（当“模板字典”用）

在 Hadoop 目录下建个地方放出来：

bash
cd /data/hadoop-2.7.3-fs1
mkdir -p default-xml

# 解 core-default.xml
jar xf share/hadoop/common/hadoop-common-*.jar core-default.xml
mv core-default.xml default-xml/

# 解 hdfs-default.xml
jar xf share/hadoop/hdfs/hadoop-hdfs-*.jar hdfs-default.xml
mv hdfs-default.xml default-xml/

ls -l default-xml/

这样你就有“模板/参数全集”可以 grep 了，例如：

bash
grep -n "fs.defaultFS" default-xml/core-default.xml | head
grep -n "dfs.datanode.address" default-xml/hdfs-default.xml | head

额外确认：你现在的 Hadoop_HOME 路径对不对？

你刚才是在 /data/hadoop-2.7.3-fs1/etc 下执行的 ls，建议确认你确实解压到了这个目录，并且目录结构完整：

bash
ls -l /data/hadoop-2.7.3-fs1
ls -l /data/hadoop-2.7.3-fs1/share/hadoop/common
ls -l /data/hadoop-2.7.3-fs1/share/hadoop/hdfs

只要 share/ 目录存在，上面 jar 方法就一定可用。

如果你把下面两条命令的输出贴出来（不用全贴，贴文件名那几行即可）：

bash
ls share/hadoop/common/hadoop-common-*.jar
ls share/hadoop/hdfs/hadoop-hdfs-*.jar

我就能直接告诉你应该从哪个 jar 解 core-default.xml / hdfs-default.xml，以及你现在这份发行包是不是“精简包/缺组件”。

Answer 8

整体思路对：你把 fs1 / fs2 的 NameNode 存储目录、DataNode 数据目录分开了，并且把 DataNode 的 3 个端口也分开，这是“同机两套 HDFS”必须做的事情 👍

但你现在还缺/需要确认 2 个关键点，不补的话后面大概率会启动异常或互相串配置。

1) 你现在这两份 `hdfs-site.xml` 里缺了 NameNode 的 RPC 地址（非常关键）

只配 dfs.namenode.http-address 只是 Web UI 端口（50070/50071），DataNode/Client 连接 NameNode 走的是 RPC，通常由 core-site.xml 的 fs.defaultFS 指定：

fs1：hdfs://node1:8020
fs2：hdfs://node2:8021（或别的端口）

✅ 所以你必须确认你两套 core-site.xml 是这样的（最少要有这个）：

fs1 core-site.xml

xml
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://192.168.0.29:8020</value>
</property>

fs2 core-site.xml

xml
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://192.168.0.21:8021</value>
</property>

并且：如果同一台机器同时跑 fs1 与 fs2 的 NameNode（或你不确定默认端口），建议你把 NN RPC 也显式写在 hdfs-site.xml，避免隐式端口导致误判：

fs1：

xml
<property>
  <name>dfs.namenode.rpc-address</name>
  <value>192.168.0.29:8020</value>
</property>

fs2：

xml
<property>
  <name>dfs.namenode.rpc-address</name>
  <value>192.168.0.21:8021</value>
</property>

8020/8021 只是示例，你用别的也行，但 fs1/fs2 必须不同。

2) 你的 `dfs.datanode.data.dir` 目前每套只有一个目录 `.../dn`

这没问题（可跑），但你之前说 DN1/DN2，如果你是“一个 DN 进程 + 两块盘/两个目录”，建议改成：

fs1：

xml
<name>dfs.datanode.data.dir</name>
<value>file:/data/hadoop-2.7.3-fs1/dn1,file:/data/hadoop-2.7.3-fs1/dn2</value>

fs2：

xml
<name>dfs.datanode.data.dir</name>
<value>file:/data/hadoop-2.7.3-fs2/dn1,file:/data/hadoop-2.7.3-fs2/dn2</value>

不要搞成“一台机器跑两个 DataNode 进程”，那会复杂很多。

3) 你现在端口规划：DN 端口分开 ✅，NN Web 端口分开 ✅

fs1 DN：50010/50020/50075
fs2 DN：50011/50021/50076

✅ 这样同机跑两套 DN 不会端口冲突（前提是你没有再起第二个 DN 进程）。

NN Web：

fs1 NN web：192.168.0.29:50070
fs2 NN web：192.168.0.21:50071

✅ 也没冲突。

⚠️ 但再次强调：RPC 端口（fs.defaultFS 指向的那个）必须确保 fs1/fs2 不同。

4) 你配置里一个小建议

你现在写了 IP（192.168.0.29 / 192.168.0.21），这可以，但要保证：

三台机器 /etc/hosts 或 DNS 解析一致
或者你干脆所有地方都用 IP（core-site 也用 IP），别一会儿用 node1 一会儿用 IP，避免解析问题。

5) 最快自检（建议你跑一下）

在每台机器上，分别检查 fs1/fs2 启动后端口是否都在：

bash
# 看 NN / DN 端口是否监听
ss -lntp | egrep "8020|8021|50070|50071|50010|50011|50020|50021|50075|50076"

以及分别用两套客户端检查：

bash
# 用 fs1 的 hadoop 执行
/data/hadoop-2.7.3-fs1/bin/hdfs dfs -ls /

# 用 fs2 的 hadoop 执行
/data/hadoop-2.7.3-fs2/bin/hdfs dfs -ls /

总结

✅ 你这两份 hdfs-site.xml 目录隔离 + DN 端口隔离 做对了。
⚠️ 但要确认/补齐 两套 core-site.xml 的 fs.defaultFS（RPC 端口）必须不同（必要时加 dfs.namenode.rpc-address 明确化）。

如果你把 fs1/fs2 的 core-site.xml 也贴出来（尤其 fs.defaultFS），我就能直接给你判定：现在是否会串到同一个 NN，端口有没有隐性冲突。

Answer 9

可以，按你现在的目录（JDK 放在 /export/App/jdk1.8.0_60）来做，三台节点都要做同样的两件事：

安装/同步同一路径的 JDK
配环境变量 + 在 Hadoop/YARN 配置里显式指定 JAVA_HOME（避免启动脚本吃不到环境变量）

下面给你一套最稳的做法。

1）先确认 JAVA_HOME 写对了（你现在写错了）

你写的是： JAVA_HOME=/export/App/jdk1.8.0_60/bin/java

❌ 这是 java 可执行文件路径，不是 JAVA_HOME。

✅ 正确应该是 JDK 目录：

bash
export JAVA_HOME=/export/App/jdk1.8.0_60
export PATH=$JAVA_HOME/bin:$PATH

验证：

bash
$JAVA_HOME/bin/java -version
java -version
echo $JAVA_HOME

2）三台机器都装到同一路径（推荐用 rsync）

假设 node1 已经有 /export/App/jdk1.8.0_60：

bash
ssh node2 "mkdir -p /export/App"
ssh node3 "mkdir -p /export/App"

rsync -av /export/App/jdk1.8.0_60/ node2:/export/App/jdk1.8.0_60/
rsync -av /export/App/jdk1.8.0_60/ node3:/export/App/jdk1.8.0_60/

注意源路径结尾的 /，避免多套一层目录。

3）三台节点设置全局环境变量（/etc/profile.d 最省事）

在 每台机器 执行（或你用 ssh 批量执行）：

bash
cat >/etc/profile.d/java.sh <<'EOF'
export JAVA_HOME=/export/App/jdk1.8.0_60
export PATH=$JAVA_HOME/bin:$PATH
EOF

chmod +x /etc/profile.d/java.sh
source /etc/profile.d/java.sh
java -version

批量一次性推三台（在 node1 上跑）

bash
for h in node1 node2 node3; do
  ssh $h "cat >/etc/profile.d/java.sh <<'EOF'
export JAVA_HOME=/export/App/jdk1.8.0_60
export PATH=\$JAVA_HOME/bin:\$PATH
EOF
chmod +x /etc/profile.d/java.sh
source /etc/profile.d/java.sh
java -version
"
done

4）确保 YARN/Hadoop 一定能用到：改 hadoop-env.sh / yarn-env.sh（强烈推荐）

因为 start-dfs.sh / start-yarn.sh 这类脚本经常不是登录 shell，有时不会加载 /etc/profile，所以最稳是直接写到 Hadoop 配置里。

对每一套 Hadoop（fs1、fs2）都做一遍

假设：

fs1：/data/hadoop-2.7.3-fs1
fs2：/data/hadoop-2.7.3-fs2

4.1 改 hadoop-env.sh（HDFS 用）

在每台机器上：

bash
echo 'export JAVA_HOME=/export/App/jdk1.8.0_60' >> /data/hadoop-2.7.3-fs1/etc/hadoop/hadoop-env.sh
echo 'export JAVA_HOME=/export/App/jdk1.8.0_60' >> /data/hadoop-2.7.3-fs2/etc/hadoop/hadoop-env.sh

4.2 改 yarn-env.sh（YARN/NM/RM 用）

bash
echo 'export JAVA_HOME=/export/App/jdk1.8.0_60' >> /data/hadoop-2.7.3-fs1/etc/hadoop/yarn-env.sh
echo 'export JAVA_HOME=/export/App/jdk1.8.0_60' >> /data/hadoop-2.7.3-fs2/etc/hadoop/yarn-env.sh

如果你的 yarn-env.sh 不存在，先 ls etc/hadoop/ 看一下；2.7.3 一般是有的。

5）再加一层保险：yarn-site.xml 指定 AM/NM 的 java home（可选但很稳）

在你跑 YARN 的那一套配置目录里（你如果只跑一套 YARN，就只改那套）加：

xml
<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>JAVA_HOME=/export/App/jdk1.8.0_60</value>
</property>
<property>
  <name>yarn.nodemanager.env-whitelist</name>
  <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME,PATH,LANG,LC_ALL</value>
</property>

这能避免 容器环境里拿不到 JAVA_HOME。

6）最后检查：NM / RM 真的拿到 JAVA_HOME 了吗？

在每台节点上（尤其 node3 是 NM/RM）：

bash
source /etc/profile.d/java.sh
echo $JAVA_HOME
java -version

启动 YARN 后看日志是否报 Java 相关错误：

$HADOOP_HOME/logs/yarn-*-resourcemanager-*.log
$HADOOP_HOME/logs/yarn-*-nodemanager-*.log

你现在的关键点

三台都要有 同路径的 JDK
JAVA_HOME 必须是 JDK 目录不是 .../bin/java
一定要在 hadoop-env.sh / yarn-env.sh 里显式 export，这样 YARN/HDFS 启动脚本怎么跑都不会丢

如果你告诉我你最终到底是“只跑一套 YARN”还是“fs1/fs2 各跑一套 YARN”，我可以把你应该改哪一套的配置路径、以及 RM/NM 分布对应的最小配置列出来，避免你两套互相串。

Answer 10

这个问题问得非常好 👍
/etc/profile.d 正好就是用来解决你现在这种「三台节点统一环境变量」场景的。

我用你已经熟悉的 bashrc / bash_profile 来对照讲，一看你就明白。

一句话先给结论

~/.bashrc / ~/.bash_profile 👉 某一个用户
/etc/profile 👉 系统所有用户
/etc/profile.d/*.sh 👉 系统所有用户（模块化、推荐做法） ✅

👉 在集群里（Hadoop / Yarn / Java），强烈推荐用 /etc/profile.d。

1️⃣ shell 启动时到底加载了什么？

登录 shell（ssh 登录、tty 登录）

执行顺序大致是：

text
/etc/profile
  └── 会自动 source /etc/profile.d/*.sh
~/.bash_profile
  └── 通常会 source ~/.bashrc

非登录 shell（很多 Hadoop/YARN 启动脚本就是这种）

text
~/.bashrc   （不一定加载 /etc/profile）

⚠️ 重点来了：

Hadoop / Yarn 的启动脚本很多不是登录 shell 👉 你只写在 ~/.bashrc 里，经常会失效

2️⃣ /etc/profile.d 是干嘛的？

/etc/profile.d/ 是一个目录，不是单个文件。

系统会在 /etc/profile 里自动执行：

bash
for i in /etc/profile.d/*.sh; do
  source "$i"
done

所以：

你在里面放一个 java.sh
所有用户登录时都会自动加载
不污染主配置文件
模块化、好维护

3️⃣ 和你以前用的 bashrc / bash_profile 的区别

方式	作用范围	适合场景
`~/.bashrc`	单个用户	临时/个人
`~/.bash_profile`	单个用户	登录时
`/etc/profile`	所有用户	老式，不好维护
✅ `/etc/profile.d/java.sh`	所有用户	集群/服务/生产推荐

4️⃣ 为什么 Hadoop/YARN 场景必须用它？

因为：

start-dfs.sh
start-yarn.sh
yarn-daemon.sh
hadoop-daemon.sh

这些脚本 不一定加载你的用户 bashrc

👉 结果就是经典报错：

text
JAVA_HOME is not set and could not be found

解决方案：

/etc/profile.d/java.sh
或 hadoop-env.sh / yarn-env.sh
最稳：两个都写（我们前面就是这么做的）

5️⃣ 你现在该怎么用（一步到位）

在每台机器上执行（root）

bash
cat >/etc/profile.d/java.sh <<'EOF'
export JAVA_HOME=/export/App/jdk1.8.0_60
export PATH=$JAVA_HOME/bin:$PATH
EOF

chmod +x /etc/profile.d/java.sh

立即生效（当前 shell）：

bash
source /etc/profile.d/java.sh
java -version

重新登录后自动生效。

6️⃣ 对比一下你以前的写法（为什么现在更好）

你以前可能这样写过：

bash
echo 'export JAVA_HOME=...' >> ~/.bashrc

问题是：

只对一个用户
YARN/NM/容器进程不一定继承
三台机器要重复配置多个用户

而 /etc/profile.d/java.sh：

一次配置
所有用户
所有节点
所有 Hadoop / Yarn 进程

7️⃣ 再强调一次最稳的 Hadoop/YARN 组合（你现在就该这么做）

✔ /etc/profile.d/java.sh（系统级）
✔ hadoop-env.sh（HDFS 启动脚本）
✔ yarn-env.sh（YARN 启动脚本）

这三层一起，几乎不可能再遇到 JAVA_HOME 问题。

如果你愿意，下一步我可以帮你：

🔍 检查你现在 hadoop-env.sh / yarn-env.sh 是否写对
🧪 给你一套 “启动前 3 条必查命令”
🧠 帮你梳理：哪些变量一定要系统级，哪些写 Hadoop 配置就够

你现在是 root 用户启动 Hadoop 还是 hadoop 普通用户启动？这会影响一个细节，我可以顺手帮你优化。

Answer 11

你现在遇到的是 两类问题叠加：

start-dfs.sh 报 NameNode RPC 地址没配
start-dfs.sh 通过 ssh 启动进程时，连 localhost 都没通过 host key 校验/免密

另外你说 hdfs namenode -format “卡住”，其实format 本来就是前台运行（不返回就像卡住），但也可能被交互/ssh/配置问题拖住；先按下面步骤修正后再 format 一次最稳。

1）“namenode rpc-address is not configured” 怎么修

start-dfs.sh 内部会调用类似 hdfs getconf -namenodes 去取 NN 地址。你只配了 fs.defaultFS，但它在你的场景下仍要求显式配置 NN RPC 地址。

在 fs1 的 hdfs-site.xml 里加上（fs1 的 NN 在 192.168.0.29，RPC 端口 8020）：

xml
<property>
  <name>dfs.namenode.rpc-address</name>
  <value>192.168.0.29:8020</value>
</property>

（可选但建议）再把 web 也用同类 key 固定一下：

xml
<property>
  <name>dfs.namenode.http-address</name>
  <value>192.168.0.29:50070</value>
</property>

fs2 同理（192.168.0.21:8021 / 50071）。

你现在 core-site.xml 里的 fs.defaultFS=hdfs://192.168.0.29:8020 没问题，但 start-dfs 这套脚本更依赖 hdfs-site 的 rpc-address 配置，加上就不报了。

2）“localhost Host key verification failed” 怎么修

start-dfs.sh 是用 ssh 去各节点（包含本机）拉起 NameNode/DataNode 的，所以你必须保证 root 这个用户（你现在是 root 在跑）：

能 ssh localhost 不提示 yes/no
能 ssh node1/node2/node3 不要密码（免密）

2.1 先把 localhost 的 known_hosts 问题处理掉（最直接）

在 node1 上执行：

bash
ssh -o StrictHostKeyChecking=accept-new localhost "hostname"
ssh -o StrictHostKeyChecking=accept-new 127.0.0.1 "hostname"

如果你机器会优先走 IPv6 的 ::1，也做一下：

bash
ssh -o StrictHostKeyChecking=accept-new ::1 "hostname"

或者更简单粗暴（不推荐长期，但排障可用）：

bash
ssh-keygen -R localhost
ssh-keygen -R 127.0.0.1

2.2 配 root 的免密（你用 root 跑就配 root）

在 node1：

bash
ssh-keygen -t rsa -N "" -f /root/.ssh/id_rsa
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

并测试：

bash
ssh node1 "hostname"
ssh node2 "hostname"
ssh node3 "hostname"
ssh localhost "hostname"

只要这里任何一个还要你输入 yes/no 或密码，start-dfs.sh 就会卡/失败。

3）你说 `hdfs namenode -format -force` 卡住是为什么？

3.1 正常情况：format 就是前台跑，没结束前 shell 不会返回

所以看起来像“卡住”。一般它会输出一堆格式化信息然后退出。

3.2 不正常情况：它真的卡住/一直不结束

这时别猜，直接看日志（最关键）：

bash
ls -ltr /export/jcloud-hadoop/hadoop-2.7.3-fs1/logs | tail
tail -n 200 /export/jcloud-hadoop/hadoop-2.7.3-fs1/logs/hadoop-*-namenode-*.log

另外你进程里显示 -Dhadoop.id.str=root，说明你是 root 在 format。确认目录权限也没问题：

bash
ls -ld /data/hadoop-2.7.3-fs1/nn /data/hadoop-2.7.3-fs1/tmp

3.3 建议你用“完全非交互”格式化（更不容易等输入）

Hadoop 2.7 支持 -nonInteractive，用这个更稳：

bash
/export/jcloud-hadoop/hadoop-2.7.3-fs1/bin/hdfs namenode -format -force -nonInteractive

注意：format 只在第一次做一次。以后再 format 会把 NN 元数据清掉。

如果你现在已经有这个 format 进程在跑，想停掉可以：

bash
kill 49415

（或 kill -9 49415 作为最后手段）

4）你接下来按这个顺序做（避免反复踩坑）

fs1/fs2 的 hdfs-site.xml 都加上各自的 dfs.namenode.rpc-address
保证 root ssh localhost/node1/node2/node3 都不提示也不要密码
只在各自 NN 节点执行一次 format
- fs1 在 node1 format
- fs2 在 node2 format
再运行对应的 start-dfs.sh

如果你把 fs1 的 hdfs-site.xml（含你刚才那段 + 我让你加的 rpc-address） 和你 fs1 的 workers/slaves 文件内容（列了哪些主机名）贴一下，我可以直接告诉你：start-dfs.sh 为啥显示 Starting namenodes on []（这通常是“没读到 namenode 列表/配置不完整/主机名解析不一致”导致的）。

Answer 12

结论先给你：不是必须在 fs2 的 NameNode（node2）上再启动一个 HistoryServer。
你现在看到的提示，其实是在告诉你：这台机器上已经有一个 HistoryServer 在跑了。

下面把 为什么、什么时候要两个、你现在该怎么做 讲清楚。

1️⃣ HistoryServer 是“集群级服务”，不是 HDFS 必需组件

MapReduce JobHistoryServer 的职责只有一个：

👉 保存和展示已经完成的 MapReduce 作业历史

它和：

NameNode
DataNode

没有强绑定关系，而是和 YARN / MapReduce 绑定。

2️⃣ 你现在这个报错说明了什么？

你在 fs2 的 Hadoop_HOME 下执行：

bash
/export/jcloud-hadoop/hadoop-2.7.3-fs2/sbin/mr-jobhistory-daemon.sh start historyserver

返回：

text
historyserver running as process 50106. Stop it first.

说明：

✅ 这台机器上已经有一个 HistoryServer 在跑
❌ 不是 fs2 启动失败
❌ 也不是必须再启动一个

👉 同一台机器上不能启动两个 HistoryServer（端口会冲突）

3️⃣ 到底需不需要 fs1 / fs2 各一个 HistoryServer？

情况 A（推荐 & 90% 场景）✅

👉 一套 YARN + 一套 MapReduce

fs1 / fs2：两套 HDFS
共用一套 YARN
只需要 1 个 HistoryServer

✔ 这是最简单、最稳定、最常见的做法
✔ 你现在的现象正好符合这个模式

那个 HistoryServer 很可能是你用 fs1 的 Hadoop_HOME 启的

情况 B（高级/少见）⚠️

👉 fs1 / fs2 各一套 YARN + 各一套 MapReduce

这种情况下才需要：

fs1 → 1 个 HistoryServer
fs2 → 1 个 HistoryServer

⚠️ 但必须：

不同端口
不同日志目录
不同 mapreduce.jobhistory.* 配置

你现在明显还没走到这一步，也不建议你现在就这么搞。

4️⃣ 你现在应该怎么确认“我只有一个 HistoryServer 在跑”？

在那台机器上（比如 node1 / node3）：

bash
jps | grep -i history

应该看到类似：

text
50106 JobHistoryServer

再看看是用哪套 Hadoop 启的：

bash
ps -fp 50106

你会看到类似：

text
... /export/jcloud-hadoop/hadoop-2.7.3-fs1/...

或 fs2，但不重要 —— 只要 YARN / MapReduce 指向它即可。

5️⃣ 最关键的一点：YARN / MapReduce 配置要和这个 HistoryServer 一致

在你跑 YARN 的那一套 Hadoop 配置目录里（例如 fs1 那套），确认：

`mapred-site.xml` 至少有这些：

xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>nodeX:10020</value>
  </property>

  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>nodeX:19888</value>
  </property>
</configuration>

其中 nodeX 就是你实际跑 HistoryServer 的那台机器。

6️⃣ 回答你这句关键问题（直接结论）

“那我应该在 fs2 的 namenode 也就是 node2 上启动 history 是吧？”

❌ 不一定，也通常不需要。

✅ 只要你是一套 YARN / MapReduce → 只要 1 个 HistoryServer 就够。
你现在这个提示反而说明：你已经启动过了，而且是正确的。

7️⃣ 建议你现在的最优状态（总结）

✔ fs1 / fs2：两套 HDFS（你在做的事是对的）
✔ 一套 YARN（RM + NM）
✔ 一个 HistoryServer（已经在跑）
❌ 不要再启动第二个，除非你明确要“两套 YARN”

如果你愿意，下一步我可以帮你做两件很有价值的事之一：

1️⃣ 帮你确认现在到底是哪一套 Hadoop 在跑 YARN / HistoryServer
2️⃣ 帮你核对 mapred-site.xml / yarn-site.xml，确保 MR 作业跑 fs1 或 fs2 都不会串

你现在是打算 只用一套 YARN 调度 fs1 / fs2 上的 MR 作业，对吗？

Answer 13

下面按你现在的启动顺序，给你一套可操作的“验证清单”，以及 fs2 怎么“绑定”到 YARN 的正确理解与做法。

1）怎么验证 fs1 / fs2 启动成功？

A. 最快：看进程（每台都跑）

在 node1/node2/node3 分别执行：

bash
jps

你应该看到：

node1（fs1 NN + YARN RM）：
- NameNode
- DataNode（如果 node1 也跑 DN）
- ResourceManager
- NodeManager
node2（fs2 NN）：
- NameNode
- DataNode
- NodeManager
node3（DN + NM + 你说还有 RM）
- DataNode
- NodeManager
- （如果你真在 node3 启第二个 RM，才会看到 ResourceManager，一般先别搞双 RM）

重点：fs1 和 fs2 在同一台机器上如果都跑 DN，会看到 2 个 DataNode 进程（分别从两个 Hadoop_HOME 启动）；如果你只跑一套 DN，那只会有一个。

B. 用 Web UI 看（最直观）

fs1 NameNode UI：http://192.168.0.29:50070
- 看 Live Nodes（DataNode 是否都在）
fs2 NameNode UI：http://192.168.0.21:50071

YARN：

ResourceManager UI（默认 8088）：
- http://<RM所在机器>:8088
- 看 Nodes 是否 3/3

JobHistory（如果你启了）：

http://<historyserver机器>:19888

C. 用命令验证 HDFS 可用（最关键：两套都要验证）

在任意机器上分别用两套 hdfs client 测：

验证 fs1：

bash
/export/jcloud-hadoop/hadoop-2.7.3-fs1/bin/hdfs dfs -ls /
/export/jcloud-hadoop/hadoop-2.7.3-fs1/bin/hdfs dfsadmin -report | head -n 50

验证 fs2：

bash
/export/jcloud-hadoop/hadoop-2.7.3-fs2/bin/hdfs dfs -ls /
/export/jcloud-hadoop/hadoop-2.7.3-fs2/bin/hdfs dfsadmin -report | head -n 50

如果 -ls / 能返回（就算是空），dfsadmin -report 能看到 DataNodes，说明 HDFS 起来了。

2）fs2 需要怎么“绑定到 YARN 上”？

这里要先纠正一个概念：

✅ YARN 不“绑定”某个 HDFS

YARN 是计算/资源调度，HDFS 是存储。
YARN 跑的作业（MapReduce/Spark）用哪个 HDFS，取决于：

客户端提交作业时使用的 fs.defaultFS（也就是你用 fs1 还是 fs2 的配置）
输入输出路径写的是 hdfs://... 还是默认 hdfs:///...

3）你现在最推荐的模式：一套 YARN + 两套 HDFS

也就是：

node1 跑一套 YARN（RM + NMs）
fs1/fs2 都可以作为存储
作业要用 fs2，就用 fs2 的 Hadoop 配置提交

怎么做才算“fs2 能用 YARN 跑 MR 作业”？

你需要在 fs2 的 Hadoop_HOME 也准备好 yarn-site.xml / mapred-site.xml，让它能连到 同一个 RM。

在 `/export/jcloud-hadoop/hadoop-2.7.3-fs2/etc/hadoop/yarn-site.xml` 里（最少这些）

把 RM 指向 node1（假设 node1 是 RM）：

xml
<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>192.168.0.29</value>
  </property>
</configuration>

如果你用的是更细的 address 配置（scheduler/address等），也行，但最少 hostname 要对。

在 fs2 的 `mapred-site.xml`（没有就从 mapred-site.xml.template 拷贝）

/export/jcloud-hadoop/hadoop-2.7.3-fs2/etc/hadoop/mapred-site.xml：

xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

4）验证“fs2 跑在 YARN 上”的方法（最硬核）

在 node1（或任意节点）用 fs2 的环境 提交一个例子：

bash
cd /export/jcloud-hadoop/hadoop-2.7.3-fs2

# 先看能不能连到 RM
./bin/yarn node -list

# 跑个简单 MR 示例（pi）
./bin/yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 2 10

同时打开 RM UI（8088），看 Applications 里是否出现该任务。

如果：

yarn node -list 能列出节点
pi 能跑起来并完成说明：fs2 这套配置已经能用同一套 YARN 调度了。

5）你写的启动步骤里一个小点

你 node2 注释里写了“启动fs1”，实际是启动 fs2 的 dfs：

bash
cd /export/jcloud-hadoop/hadoop-2.7.3-fs2
./sbin/start-dfs.sh   # 这是启动 fs2（以 fs2 的配置）

✅ 逻辑没问题。

6）最后提醒一个高频坑（你很可能马上遇到）

同一台机器上同时跑 fs1 和 fs2 的 DataNode 时：

必须保证两套 DN 的端口完全不冲突（你已经做了 50010/11 等那套）
两套的 dfs.datanode.data.dir 不能指向同一目录（你也分开了）

一旦端口或目录冲突，jps 可能看得到进程但 UI 里 Live Nodes 不会全绿。

如果你把以下两样贴出来（不用全贴，关键行即可）：

fs1 的 yarn-site.xml（RM 配置）
fs2 的 yarn-site.xml（你准备怎么写）

我可以直接告诉你：/bin/yarn node -list 为什么可能连不上，以及 RM 到底该指向 node1 还是你想做双 RM。

Answer 14

这是 SSH 的主机指纹确认提示，不是 Hadoop 的错误，本质原因是：

Hadoop 启动脚本通过 ssh 连接节点（包括本机），而 SSH 第一次连接某个“主机名/IP”时，需要你确认它的身份。

下面把 为什么会出现、为什么是 IPv6、会有什么影响、怎么彻底解决 一次讲清楚。

一、这条提示到底是什么意思？

text
The authenticity of host 'vhost-52-multi (fe80::f816:3eff:fe1e:39fa%eth0)' can't be established.
ECDSA key fingerprint is SHA256:...
Are you sure you want to continue connecting (yes/no/[fingerprint])?

逐条翻译：

authenticity can't be established
- SSH 第一次连接这个“主机标识”
fe80::xxxx%eth0
- 这是 IPv6 的 link-local 地址
yes
- 你确认后，SSH 会把该主机的公钥写入
  ~/.ssh/known_hosts

后面这句说明已经写进去了：

text
Permanently added ... to the list of known hosts

二、为什么启动 Hadoop/YARN 时会触发这个？

关键点：Hadoop 启动是靠 SSH 的

start-dfs.sh / start-yarn.sh 内部逻辑是：

text
ssh node1 启 NameNode
ssh node2 启 DataNode
ssh node3 启 DataNode

哪怕是本机，也会 ssh localhost / hostname。

所以只要出现以下情况之一，就会弹这个提示：

第一次 ssh 这个 hostname
hostname 解析到了一个 新的 IP（尤其是 IPv6）
known_hosts 里没有这条记录

三、为什么是 IPv6（fe80::）而不是 IPv4？

这是非常典型的现象，原因是：

你的机器 开启了 IPv6
hostname → DNS / /etc/hosts → 优先解析到 IPv6
SSH 就用 IPv6 去连自己

所以你看到的是：

text
vhost-52-multi (fe80::xxxx%eth0)

而不是：

text
192.168.x.x

四、这会有什么影响？

1️⃣ 手动启动时：只是烦，不致命

你输 yes，服务还能继续启动。

2️⃣ 脚本启动时：致命

Hadoop 脚本是非交互式的：

一旦 SSH 等待 yes/no
脚本直接 卡住 / 失败
你之前遇到的：
- Starting namenodes on []
- Host key verification failed
- 启动卡住

👉 根因基本都是这个

五、一次性彻底解决方案（强烈推荐）

✅ 方案 1（最稳）：提前把所有节点 + localhost 加进 known_hosts

在 每个节点（用 root） 执行：

bash
# 本机
ssh -o StrictHostKeyChecking=accept-new localhost hostname
ssh -o StrictHostKeyChecking=accept-new $(hostname) hostname

# 所有节点
ssh -o StrictHostKeyChecking=accept-new node1 hostname
ssh -o StrictHostKeyChecking=accept-new node2 hostname
ssh -o StrictHostKeyChecking=accept-new node3 hostname

如果你机器会走 IPv6，再补一条：

bash
ssh -o StrictHostKeyChecking=accept-new ::1 hostname

这样 known_hosts 就全齐了。

✅ 方案 2（推荐）：强制 Hadoop/SSH 用 IPv4（生产最常用）

2.1 禁用 SSH 使用 IPv6（简单粗暴）

编辑 /etc/ssh/ssh_config：

bash
Host *
    AddressFamily inet

然后：

bash
systemctl restart sshd

这会强制 SSH 只用 IPv4。

2.2 同时建议：Hadoop JVM 也强制 IPv4（你已经部分有了）

在 hadoop-env.sh 和 yarn-env.sh 里确认有：

bash
export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true"

（你之前的进程参数里已经看到这个 👍）

六、怎么确认以后不会再弹？

做完上面处理后，检查这 4 条都必须 无提示直接返回：

bash
ssh localhost hostname
ssh $(hostname) hostname
ssh node2 hostname
ssh node3 hostname

然后再启动：

bash
./sbin/start-dfs.sh
./sbin/start-yarn.sh

如果还有任何 SSH 提示，说明还有遗漏的主机名/IP。

七、总结一句话（你可以记住）

这不是 Hadoop 问题，是 SSH 第一次连接 + IPv6 优先导致的。
Hadoop 启动依赖 SSH，必须提前打通所有节点（含 localhost）的免密 + known_hosts，否则一定会卡。

如果你愿意，下一步我可以帮你做一件很实用的事：

👉 给你一份“启动 Hadoop 前的 SSH 自检清单（5 条命令）”
跑完它，基本可以保证 start-dfs.sh / start-yarn.sh 不再出幺蛾子。

你现在是 每台都用 root 启 Hadoop 对吧？我可以按 root 用户给你一份最终版检查表。

问题

node1 做完后 rsync 到 node2/node3（示意）

回答

一、Hadoop 需要几个节点？目录要不要都有？

二、正确的安装顺序（推荐）

① 在 node1 上解压 Hadoop（你已经做了）

三、rsync 的具体做法（重点）

1️⃣ 确保 SSH 免密登录已配置

2️⃣ rsync Hadoop 目录到 node2 / node3

同步 hadoop-fs1

同步 hadoop-fs2

3️⃣ 一次性写成脚本（推荐）

四、权限问题（非常重要）

五、快速自检清单

六、常见误区总结

问题

回答

1）先在目标机器上确认父目录是否存在

2）正确的 rsync 写法（推荐先建目录再同步）

3）如果是权限问题，也会类似踩坑

4）还有一种高频原因：/export 是挂载点但没挂载成功

问题

回答

一、最常见的解压方式（当前目录）

二、解压到指定目录（推荐用于 Hadoop/JDK）

三、去掉最外层目录（可选）

四、解压前先看看包里有什么（很实用）

五、解压后常规操作（Hadoop 必做）

1️⃣ 配 JAVA_HOME

2️⃣ 验证

六、和你 Hadoop 集群的关系（重点）

问题

回答

0️⃣ 先给结论（你最关心的）

1️⃣ fs1 的 3 个节点都要改 core-site.xml / hdfs-site.xml 吗？

2️⃣ 同理：fs2 的 3 个节点都要改吗？

3️⃣ 既然两套 HDFS（fs1/fs2）都在同一批机器上跑：端口要不要不同？

4️⃣ 哪些端口必须不同？（最关键）

✅ NameNode（RPC + Web）端口

✅ DataNode 的端口（最容易忘）

✅ NameNode 的数据目录要不同（必须）

✅ DataNode 数据目录要不同（必须）

5️⃣ core-site.xml 是否也需要分两套？（必须）

6️⃣ 你现在这个角色安排里有一个明显风险：node1 和 node2 上都是 “DN1/DN2”

✅ 推荐（简单且正确）：每台机器只跑一个 DataNode，配置两个数据目录

❌ 不推荐：一台机器跑多个 DataNode 进程（DN1 DN2 两进程）

7️⃣ YARN (RM) 你现在有两个 RM：node1 和 node3

8️⃣ 一句话总结你该怎么做（最实用）

9️⃣ 你问的“fs2 端口需要和 fs1 完全不一样吗？”

🔥 我建议你下一步做两件事（我可以继续帮你）

问题

回答

你这个“双 HDFS（fs1/fs2）同机共存”的推荐做法

1) fs1：/opt/hadoop-fs1/etc/hadoop/core-site.xml

2) fs1：/opt/hadoop-fs1/etc/hadoop/hdfs-site.xml

3) fs2：/opt/hadoop-fs2/etc/hadoop/core-site.xml

4) fs2：/opt/hadoop-fs2/etc/hadoop/hdfs-site.xml

5) 三台机器都要创建这些目录（两套都要有）

6) “他有模板吗”怎么用？

7) 一个很重要的提醒（避免你后面一定踩坑）

问题

回答

1) 你的 core-site 只要这些吗？

2) 你说“原始文件上没看见模板”——去哪里找？

3) 你现在更容易踩坑的点（提醒你别卡住）

问题

思考

回答

1）先用 find 全盘找（最简单）

2）通常在 jar 里：用 jar tf 查（最常见）

3）把默认文件从 jar 解出来（当“模板字典”用）

额外确认：你现在的 Hadoop_HOME 路径对不对？

问题

回答

1) 你现在这两份 hdfs-site.xml 里缺了 NameNode 的 RPC 地址（非常关键）

2) 你的 dfs.datanode.data.dir 目前每套只有一个目录 .../dn

3) 你现在端口规划：DN 端口分开 ✅，NN Web 端口分开 ✅

4) 你配置里一个小建议

5) 最快自检（建议你跑一下）

总结

1) fs1：`/opt/hadoop-fs1/etc/hadoop/core-site.xml`

2) fs1：`/opt/hadoop-fs1/etc/hadoop/hdfs-site.xml`

3) fs2：`/opt/hadoop-fs2/etc/hadoop/core-site.xml`

4) fs2：`/opt/hadoop-fs2/etc/hadoop/hdfs-site.xml`

2）通常在 jar 里：用 `jar tf` 查（最常见）

1) 你现在这两份 `hdfs-site.xml` 里缺了 NameNode 的 RPC 地址（非常关键）

2) 你的 `dfs.datanode.data.dir` 目前每套只有一个目录 `.../dn`

3）你说 `hdfs namenode -format -force` 卡住是为什么？

`mapred-site.xml` 至少有这些：