在3节点和 5节点上部署 yarn-2.7 的流程

Question

Answer 1

下面给你一份**在 3 节点 / 5 节点（本质是 N 节点）**上部署 **Yarn 2.7（Berry）**的可复用流程。默认你是 Linux 服务器集群（同一业务用户、节点之间可 SSH），并且目标是让所有节点跑同一套 Yarn 2.7 行为一致。

方案选择（强烈推荐）

方案 A：项目内固定 Yarn 版本（推荐，最稳）

把 Yarn 2.7 放进项目仓库：所有节点只要拿到代码，就自动用同一版本 Yarn（不会被全局 yarn/corepack 版本影响）。

优点：一致性最好、回滚简单、对多节点最省心
缺点：仓库会多一些 Yarn 文件

方案 B：全局安装 Yarn 2.7（不推荐）

在每台机器全局装 [email protected]。多节点容易出现 PATH、用户环境、node 版本不一致导致“有的节点能跑、有的不能”。

前置检查（所有节点都要）

Node.js 版本建议一致（至少同大版本）

bash
node -v
npm -v

确认业务用户一致（比如都用 appuser），避免权限问题。
节点间时间、DNS、网络访问 npm registry（或你的私服）一致。

方案 A：项目内固定 Yarn 2.7（推荐流程）

适用于 3 节点和 5 节点：只是节点列表不同，步骤一样。

Step 1：在“构建节点/管理节点”准备 Yarn 2.7 文件（一次性）

进入你的项目根目录：

bash
cd /path/to/your-project

如果你没有 corepack，也可以用 npm 临时装一个 yarn classic 来生成 berry（任选其一）：

方式 1（有 corepack 时）：

bash
corepack enable
yarn set version 2.7.0

方式 2（没有 corepack 时）：

bash
npm i -g yarn
yarn set version 2.7.0

成功后项目里会出现类似：

.yarn/releases/yarn-2.7.0.cjs
.yarnrc.yml（里面会有 yarnPath: .yarn/releases/...）

验证：

bash
yarn -v
# 应输出 2.7.0

Step 2：建议补齐关键配置（保证多节点一致）

在项目根目录检查/补充 .yarnrc.yml（示例）：

yaml
yarnPath: .yarn/releases/yarn-2.7.0.cjs
nodeLinker: node-modules   # 如果你不想用 PnP（很多服务端项目更省事）
# 或者用默认 pnp 也行，但要确保运行时、工具链兼容

说明：

nodeLinker: node-modules 会生成传统的 node_modules，对旧工具兼容更好。
如果你们已经用 PnP（.pnp.cjs），就不要改，保持现状即可。

Step 3：把 Yarn 文件纳入发布物/仓库

至少要带上：

.yarn/releases/yarn-2.7.0.cjs
.yarnrc.yml

如果你们想加速、减少外网依赖，建议启用离线缓存（可选）：

bash
yarn config set enableGlobalCache false
yarn config set cacheFolder .yarn/cache

然后首次安装生成缓存：

bash
yarn install

把 .yarn/cache 也一并分发到各节点（非常适合多节点）。

Step 4：分发到 3 节点 / 5 节点

假设节点：

3 节点：node1 node2 node3
5 节点：node1 node2 node3 node4 node5

你可以用 rsync（示例，把项目目录同步到相同路径）：

bash
NODES="node1 node2 node3"   # 或改成 5 个节点
for h in $NODES; do
  rsync -az --delete /path/to/your-project/ $h:/path/to/your-project/
done

如果你们用 GitOps/CI 发布：确保发布包里包含 .yarn/ 和 .yarnrc.yml 即可。

Step 5：每个节点上验证 Yarn 版本一致

在每个节点项目目录执行：

bash
cd /path/to/your-project
yarn -v

并做一次安装校验（首次部署建议做）：

bash
yarn install --immutable 2>/dev/null || yarn install

方案 A 的运行建议（多节点常见坑）

不要依赖 yarn 全局命令版本：项目内的 yarnPath 会强制使用 .yarn/releases/...。
权限问题：如果 .yarn/cache 或 node_modules 是共享盘，确保同用户/同组可写。
Node 版本不一致：会导致某些原生依赖编译结果不一致（尤其 node-gyp）。建议统一 Node 版本或用容器。
镜像源/私服：多节点必须一致，否则 lockfile 解析/下载行为可能不同。

方案 B：全局安装 Yarn 2.7（不推荐但给你流程）

Yarn 2.x 本身更推荐项目内固定版本。全局装往往是为了方便，但风险更大。

在每个节点：

bash
npm uninstall -g yarn || true
corepack enable || true
corepack prepare [email protected] --activate
yarn -v

注意：corepack 依赖 Node 版本（Node 16+ 常见自带），不同节点 Node 版本不同会翻车。

面向 3 节点 / 5 节点的“最小可执行清单”

你可以按这个 checklist 走：

所有节点 Node 版本一致
项目根目录存在 .yarnrc.yml 且 yarnPath 指向 yarn-2.7.0.cjs
.yarn/releases/yarn-2.7.0.cjs 已分发到所有节点
（可选）.yarn/cache 也分发，提升安装速度、降低外网依赖
每节点 yarn -v 输出 2.7.0
每节点 yarn install 可成功（或 --immutable 通过）

如果你告诉我你们是：

K8s（DaemonSet/InitContainer）
裸机 + systemd
HPC/Slurm
有共享 NFS/并行文件系统（项目目录是否共享）

我可以把上面的流程改成更贴合你们环境的“一键脚本/Ansible Playbook 版本”。

Answer 2

明白了 👍
你说的是 Hadoop 生态里的资源管理框架 YARN（Yet Another Resource Negotiator）2.7.x，不是前端的 Yarn。下面我按3 节点 / 5 节点集群给你一份标准、可落地的大数据 YARN 2.7 部署流程（偏生产思路）。

一、整体架构说明（YARN 2.7）

YARN 本身不单独部署，它是 Hadoop 2.7.x 的核心组件之一。

角色划分

角色	进程	说明
ResourceManager (RM)	ResourceManager	集群资源调度中心
NodeManager (NM)	NodeManager	每个计算节点的资源管理
JobHistoryServer	MapReduce JobHistoryServer	可选，查看历史任务
ZK（可选）	ZooKeeper	RM 高可用

3 节点 vs 5 节点推荐拓扑

3 节点（最小生产 / 测试）

text
node1: ResourceManager + NameNode + NodeManager
node2: NodeManager + DataNode
node3: NodeManager + DataNode

5 节点（常见生产）

text
node1: ResourceManager + NameNode
node2: Standby ResourceManager + Standby NameNode
node3: NodeManager + DataNode
node4: NodeManager + DataNode
node5: NodeManager + DataNode

说明

NodeManager 一定部署在所有计算节点
ResourceManager 建议 1 主 + 1 备（HA）
YARN 不负责存储，默认依赖 HDFS

二、前置条件（所有节点）

1️⃣ 操作系统 & 用户

bash
# 所有节点
useradd hadoop
passwd hadoop

2️⃣ SSH 免密

bash
# 在 node1
ssh-keygen
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3
# 5 节点则复制到 node4 node5

3️⃣ JDK（必须）

bash
java -version
# Hadoop 2.7 推荐 JDK 8

三、安装 Hadoop 2.7.x（包含 YARN）

1️⃣ 下载 & 解压（所有节点）

bash
tar -zxvf hadoop-2.7.x.tar.gz -C /opt
ln -s /opt/hadoop-2.7.x /opt/hadoop
chown -R hadoop:hadoop /opt/hadoop*

2️⃣ 环境变量（所有节点）

bash
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/java/jdk1.8

四、YARN 核心配置

1️⃣ slaves / workers

bash
vim $HADOOP_HOME/etc/hadoop/slaves

3 节点

text
node1
node2
node3

5 节点

text
node3
node4
node5

注意：这里写的是 NodeManager 节点

2️⃣ yarn-site.xml（核心）

xml
<configuration>

  <!-- ResourceManager 地址 -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node1</value>
  </property>

  <!-- NM 启用 aux-service -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>

  <!-- 每个 NM 可用内存（MB） -->
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>32768</value>
  </property>

  <!-- 每个 NM 可用 CPU -->
  <property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>16</value>
  </property>

  <!-- 单个 container 最大内存 -->
  <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>8192</value>
  </property>

  <!-- 单个 container 最大 vcore -->
  <property>
    <name>yarn.scheduler.maximum-allocation-vcores</name>
    <value>4</value>
  </property>

</configuration>

3️⃣ mapred-site.xml（MapReduce on YARN）

xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>node1:10020</value>
  </property>

  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>node1:19888</value>
  </property>
</configuration>

4️⃣ capacity-scheduler.xml（资源队列示例）

xml
<property>
  <name>yarn.scheduler.capacity.root.queues</name>
  <value>default</value>
</property>

<property>
  <name>yarn.scheduler.capacity.root.default.capacity</name>
  <value>100</value>
</property>

<property>
  <name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
  <value>100</value>
</property>

五、启动 YARN

1️⃣ 启动 HDFS（如果未启动）

bash
start-dfs.sh

2️⃣ 启动 YARN

bash
start-yarn.sh

3️⃣ 启动历史服务器（可选）

bash
mr-jobhistory-daemon.sh start historyserver

六、验证集群

1️⃣ 查看进程

bash
jps

ResourceManager 节点

text
ResourceManager

NodeManager 节点

text
NodeManager

2️⃣ Web UI

服务	地址
YARN	http://node1:8088
JobHistory	http://node1:19888

七、3 节点 vs 5 节点差异总结

项目	3 节点	5 节点
RM	1 个	1 主 1 备
NM	3 个	3 个
可用资源	较少	更高
容错	低	中等
推荐用途	测试	生产

八、生产建议（非常重要）

1️⃣ 内存与 CPU 一定要按物理机器配置
2️⃣ 不要把 RM 和重计算任务放同一台（5 节点以上）
3️⃣ 生产建议开启 YARN HA + ZooKeeper
4️⃣ 容器内存溢出（OOM）90% 都是：

yarn.nodemanager.resource.memory-mb
mapreduce.map.memory.mb
mapreduce.reduce.memory.mb 没配好

如果你愿意，我可以进一步帮你：

✅ 写一套 3 节点 / 5 节点对照的完整配置模板
✅ 设计 YARN 队列（多租户资源隔离）
✅ 加上 YARN HA（双 RM + ZK）
✅ 给你一份 生产参数计算公式

你可以直接告诉我：
👉 是测试环境还是生产环境？机器的 CPU / 内存规格是多少？

Answer 3

很好的一组组件，这正是一套典型的大数据平台技术栈。我按**“从底层到上层、谁依赖谁、各自干什么”**给你讲清楚它们的关系。

一句话总览（先给你一张“脑图式”理解）

JDK 是地基 → Hadoop 是基础平台 → YARN 是资源管家 → Hive / Spark 是干活的 → ZooKeeper 是协调员

一、各组件分别是干什么的？

1️⃣ JDK 1.8.0_381 —— 所有组件的运行基础

作用：Java 运行环境

关系：

Hadoop 是 Java 写的
Hive 是 Java 写的
Spark（Driver / 部分组件）是 JVM 程序
ZooKeeper 是 Java 写的

👉 没有 JDK，下面所有东西都跑不了

text
JDK
 ├─ Hadoop
 ├─ Hive
 ├─ Spark
 └─ ZooKeeper

2️⃣ Hadoop 3.1.1 —— 大数据“操作系统”

Hadoop ≠ 只有 HDFS
它至少包含 3 个核心模块：

模块	作用
HDFS	分布式存储
YARN	分布式资源管理
MapReduce	一种计算模型（现在用得少）

在你的环境里

HDFS：Hive / Spark 的数据通常存在这里
YARN：给 Spark、Hive 分配 CPU / 内存

👉 Hadoop 是 平台级基础设施

3️⃣ YARN（Hadoop 的一部分）—— 资源调度中心

YARN 本身不做计算，它只负责：

管理集群 CPU / 内存
给任务分 container
控制谁能用多少资源

谁用 YARN？

Spark on YARN
Hive on YARN
MapReduce on YARN

text
YARN
 ├─ 给 Spark 分资源
 ├─ 给 Hive 分资源
 └─ 控制整个集群负载

4️⃣ ZooKeeper —— 分布式“协调者 / 注册中心”

作用：

保存集群状态
做主从选举
分布式锁

在你的组件中它的角色

组件	ZooKeeper 用途
Hadoop	NameNode / ResourceManager HA
Hive	HiveServer2 HA、元数据协调
Spark	Standalone / History / HA

👉 没有 ZK，集群就没法“高可用”

5️⃣ Hive 3.1.0 —— SQL 数据仓库工具

本质：

Hive = 把 SQL 翻译成分布式计算任务

Hive 自己不算数据、不调资源

它依赖：

HDFS：存数据
YARN：跑任务
Spark 或 MapReduce：真正执行计算
MetaStore（DB）：存表结构
ZooKeeper（可选）：高可用

text
Hive
 ├─ SQL → 执行计划
 ├─ 用 Spark / MR 跑
 ├─ 用 YARN 申请资源
 └─ 数据在 HDFS

6️⃣ Spark 3.2.2 —— 分布式计算引擎（真正干活的）

Spark 是计算引擎，不是资源管理器

Spark 可以跑在哪？

Spark on YARN（最常见）
Spark Standalone
Spark on Kubernetes

在你这个组合中：

text
Spark
 ├─ 用 YARN 拿资源
 ├─ 读写 HDFS
 ├─ 可作为 Hive 的执行引擎
 └─ 可独立跑 ETL / 机器学习

二、它们之间的“依赖关系图”（重点）

text
           ┌───────────────┐
           │     JDK       │
           └───────┬───────┘
                   │
        ┌──────────▼──────────┐
        │      Hadoop 3.1.1   │
        │ ┌───────┬────────┐ │
        │ │ HDFS  │  YARN  │ │
        │ └───────┴────────┘ │
        └──────────┬──────────┘
                   │
      ┌────────────▼────────────┐
      │         Spark            │
      │        Hive              │
      └────────────┬────────────┘
                   │
            ┌──────▼──────┐
            │ ZooKeeper   │
            └─────────────┘

三、典型执行流程（非常关键）

👉 一条 Hive SQL 是怎么跑起来的？

text
用户
 ↓
Hive SQL
 ↓
Hive 解析 SQL
 ↓
生成 Spark 任务
 ↓
向 YARN 申请资源
 ↓
Spark Executor 启动
 ↓
从 HDFS 读数据
 ↓
计算
 ↓
结果写回 HDFS

四、版本之间是否“匹配”？

你这套版本组合 整体是合理的，但有一个小注意点：

组件	版本	评价
JDK	1.8.0_381	✅ 推荐
Hadoop	3.1.1	⚠️ 稍老
Hive	3.1.0	✅ OK
Spark	3.2.2 + Hadoop3.2	⚠️ 和 Hadoop 3.1.1 有轻微差异
ZK	常见 3.5.x	✅

👉 Spark 编译版本是 Hadoop 3.2，而你 Hadoop 是 3.1.1

一般能跑
生产更推荐 Hadoop ≥ 3.2.x

五、用一句话总结每个组件

组件	一句话
JDK	没它全都跑不了
Hadoop	提供存储 + 资源管理
YARN	集群资源管家
ZooKeeper	高可用协调员
Hive	SQL → 分布式计算
Spark	真正算数据的引擎

如果你愿意，下一步我可以帮你：

✅ 画一张 生产级架构部署图
✅ 明确 Hive 用 Spark 还是 MR
✅ 设计 YARN 队列 & Spark 资源分配
✅ 检查你这套版本 是否适合生产

你可以直接说一句：
👉 “我想用它们做什么？”（离线数仓 / 实时 / ETL / 学习）

Answer 4

结论先给你一句非常明确的话，避免混淆：

只有 ResourceManager / NodeManager / JobHistoryServer 在 Hadoop 压缩包里
ZooKeeper 不在 Hadoop 压缩包里，必须单独安装

下面我按你说的 5 个节点、2 个 RM、5 个 NM，把每个组件是不是在 hadoop-3.1.1 里、要不要单独装、跑在哪一次讲清楚。

一、哪些“在 Hadoop 压缩包里”？哪些“不在”？

✅ 在 `hadoop-3.1.1` 压缩包里的

这些都是 Hadoop 自带的守护进程：

组件	是否在 Hadoop 包里	说明
ResourceManager (RM)	✅ 在	YARN 主控进程
NodeManager (NM)	✅ 在	每个节点都有
JobHistoryServer	✅ 在	MapReduce 历史任务
NameNode / DataNode	✅ 在	HDFS
Standby RM（HA）	✅ 在	也是 RM，只是配置不同

👉 不用额外下载，解压 Hadoop 就有

❌ 不在 Hadoop 压缩包里的

组件	是否在 Hadoop 包里	原因
ZooKeeper	❌ 不在	Apache 独立项目
Hive	❌ 不在	独立数据仓库组件
Spark	❌ 不在	独立计算引擎

👉 ZooKeeper 必须单独下载并部署

二、你这个 5 节点集群的“标准放置方式”

假设 5 台机器：

text
node1
node2
node3
node4
node5

三、ZooKeeper 和 Hadoop/YARN 的关系（很重要）

很多人会误以为 ZK 是 Hadoop 的一部分，其实不是。

实际关系是：

text
ZooKeeper
   ↑
Hadoop YARN HA
   ↑
ResourceManager 主备切换

Hadoop 里“只是用 ZooKeeper”

Hadoop 通过配置连接 ZooKeeper
ZK 本身的进程：QuorumPeerMain
Hadoop 不会帮你启动 ZK

四、JobHistoryServer 到底算不算“YARN 组件”？

算 Hadoop 的组件，但不是 YARN 核心

它的特点

属于 MapReduce
只负责：
- 保存历史任务
- Web UI 查看
不参与资源调度

所以：

✔ 在 Hadoop 包里
✔ 只需要 1 台
✔ 不需要 HA（宕了不影响新任务）

五、进程来源对照表（重点记这个）

进程	来自哪里
ResourceManager	Hadoop
NodeManager	Hadoop
JobHistoryServer	Hadoop
NameNode	Hadoop
DataNode	Hadoop
ZooKeeper	单独安装
HiveServer2	Hive
Spark Driver / Executor	Spark

六、常见误区（你这个问题正好踩在点上）

❌ 误区 1

“既然 Hadoop 用 ZooKeeper，那 ZK 肯定在 Hadoop 包里”

✅ 正解：
用 ≠ 自带

❌ 误区 2

“5 个 NM，就必须 5 个 Hadoop”

✅ 正解：
Hadoop 是一套软件，每个节点装一份，跑不同进程

❌ 误区 3

“JobHistoryServer 是 YARN 必须的”

✅ 正解：
YARN 不依赖它，只是 MR 的 UI

七、用一句话帮你彻底记住

Hadoop 包 = RM + NM + HDFS + MR
ZooKeeper = 外援，用来做 HA，不在 Hadoop 包里

如果你愿意，下一步我可以帮你做这三件事之一（都很实用）： 1️⃣ 给你一张 5 节点 Hadoop + YARN + ZK 的部署拓扑图
2️⃣ 写一份 ZK + YARN HA 的最小可用配置模板
3️⃣ 帮你判断 JobHistoryServer 放哪台最合理

你直接选一个就行。

Answer 5

这是一个非常关键、问到“根因”的问题。
我不绕概念，直接从**“不用会怎样”→“ZK 到底解决了什么”→“在你这套 Hadoop/YARN 里具体干了什么”**一步步讲清楚。

一、先说结论（一句话版）

ZooKeeper 的唯一核心价值：
在分布式系统里，保证“同一时刻只有一个老大，并且大家都知道老大是谁”

如果你不需要：

主备切换
状态一致
分布式协调

那你就不需要 ZooKeeper。

二、如果不用 ZooKeeper，会发生什么？

我们直接拿你最关心的 YARN ResourceManager 来举例。

场景 1：只有 1 个 RM（不需要 ZK）

text
Client → RM → 分配资源

✅ 简单
❌ RM 一挂：

整个集群不能提交新任务
运行中的任务可能失败

👉 单点故障

场景 2：你想上 2 个 RM（不加 ZK）

text
Client → RM1
Client → RM2

问题来了：

❌ RM1 认为自己是老大
❌ RM2 也认为自己是老大

结果：

两个 RM 同时调度资源
同一个 NodeManager 被分配两次资源
集群状态直接乱套

👉 这叫 脑裂（Split Brain）

三、ZooKeeper 解决的就是这 3 件事

1️⃣ 主从选举（最重要）

ZK 提供一种机制：

所有 RM 都去 ZK 抢一个“唯一的锁”

text
ZK
 ├─ RM1：抢到锁 → Active
 └─ RM2：没抢到 → Standby

✔ 同一时刻只能有一个 Active RM
✔ 其他只能是 Standby

2️⃣ 故障感知 + 自动切换

当 Active RM 挂了：

text
RM1（Active） ❌
      ↓
ZK 节点消失
      ↓
RM2 发现锁没了
      ↓
RM2 自动升级为 Active

✔ 不需要人工干预
✔ 客户端感知最小化

3️⃣ 状态一致性（大家“对齐认知”）

在分布式系统中，最怕的是：

“A 以为 B 还活着，C 以为 B 已经死了”

ZooKeeper 通过：

临时节点
心跳
watch 机制

保证：

谁活着
谁是主
状态变化立刻通知所有人

四、ZooKeeper 在 Hadoop / YARN 中具体干了什么？

我们直接对照你现在用的组件。

1️⃣ YARN ResourceManager HA（你最关心的）

不用 ZK

text
1 个 RM → 单点故障

用 ZK

text
ZK
 ├─ RM1（Active）
 └─ RM2（Standby）

作用：

RM 主备选举
RM 崩溃自动切换
防止双 Active

👉 这是 YARN 使用 ZK 的最核心原因

2️⃣ HDFS NameNode HA（顺带一提）

和 RM 一模一样：

text
ZK
 ├─ NN1（Active）
 └─ NN2（Standby）

没有 ZK：

两个 NameNode 都可能写元数据
文件系统直接损坏

3️⃣ Hive / Spark（你以后一定会用到）

Hive

HiveServer2 HA
MetaStore 高可用

Spark

Standalone Master HA
HistoryServer HA（可选）

👉 它们不是一定要 ZK，但只要想 HA，就必须要

五、为什么不能“自己写一个”代替 ZK？

这是个很多人都会问的问题。

因为 ZooKeeper 已经帮你解决了：

分布式一致性
网络抖动
脑裂
session 超时
选主公平性
高并发 watch 通知

👉 这些坑，99% 的团队自己写都会踩

六、在你 5 节点集群里：哪些地方“必须 ZK”？哪些“可以不用”？

必须用 ZK

场景	是否必须
2 个 ResourceManager	✅ 必须
HDFS NameNode HA	✅ 必须

可选

场景	是否必须
JobHistoryServer	❌ 不需要
只有 1 个 RM	❌ 不需要
纯学习/测试	❌ 可不用

七、用一句“人话”总结（非常重要）

ZooKeeper ≠ 用来存数据
ZooKeeper = 分布式系统的“裁判 + 记事本”

在 Hadoop/YARN 里，它只干三件事：

决定谁是老大
老大挂了立刻换人
防止两个老大同时出现

如果你愿意，我可以下一步帮你：

🔧 画一张 “没有 ZK vs 有 ZK”的 RM 工作对比图
🔧 给你一套 最小 ZK + YARN HA 配置（能直接跑）
🔧 判断你现在这个环境 到底要不要上 ZK

你只要回一句：
👉 “我要不要 HA？”

Domanda

Pensiero

Risposta

方案选择（强烈推荐）

方案 A：项目内固定 Yarn 版本（推荐，最稳）

方案 B：全局安装 Yarn 2.7（不推荐）

前置检查（所有节点都要）

方案 A：项目内固定 Yarn 2.7（推荐流程）

Step 1：在“构建节点/管理节点”准备 Yarn 2.7 文件（一次性）

Step 2：建议补齐关键配置（保证多节点一致）

Step 3：把 Yarn 文件纳入发布物/仓库

Step 4：分发到 3 节点 / 5 节点

Step 5：每个节点上验证 Yarn 版本一致

方案 A 的运行建议（多节点常见坑）

方案 B：全局安装 Yarn 2.7（不推荐但给你流程）

面向 3 节点 / 5 节点的“最小可执行清单”

Domanda

Risposta

一、整体架构说明（YARN 2.7）

角色划分

3 节点 vs 5 节点推荐拓扑

3 节点（最小生产 / 测试）

5 节点（常见生产）

二、前置条件（所有节点）

1️⃣ 操作系统 & 用户

2️⃣ SSH 免密

3️⃣ JDK（必须）

三、安装 Hadoop 2.7.x（包含 YARN）

1️⃣ 下载 & 解压（所有节点）

2️⃣ 环境变量（所有节点）

四、YARN 核心配置

1️⃣ slaves / workers

3 节点

5 节点

2️⃣ yarn-site.xml（核心）

3️⃣ mapred-site.xml（MapReduce on YARN）

4️⃣ capacity-scheduler.xml（资源队列示例）

五、启动 YARN

1️⃣ 启动 HDFS（如果未启动）

2️⃣ 启动 YARN

3️⃣ 启动历史服务器（可选）

六、验证集群

1️⃣ 查看进程

ResourceManager 节点

NodeManager 节点

2️⃣ Web UI

七、3 节点 vs 5 节点差异总结

八、生产建议（非常重要）

Domanda

Risposta

一句话总览（先给你一张“脑图式”理解）

一、各组件分别是干什么的？

1️⃣ JDK 1.8.0_381 —— 所有组件的运行基础

2️⃣ Hadoop 3.1.1 —— 大数据“操作系统”

在你的环境里

3️⃣ YARN（Hadoop 的一部分）—— 资源调度中心

谁用 YARN？

4️⃣ ZooKeeper —— 分布式“协调者 / 注册中心”

在你的组件中它的角色

5️⃣ Hive 3.1.0 —— SQL 数据仓库工具

Hive 自己不算数据、不调资源

6️⃣ Spark 3.2.2 —— 分布式计算引擎（真正干活的）

Spark 可以跑在哪？

在你这个组合中：

二、它们之间的“依赖关系图”（重点）

三、典型执行流程（非常关键）

👉 一条 Hive SQL 是怎么跑起来的？

四、版本之间是否“匹配”？

五、用一句话总结每个组件

Domanda

Risposta

一、哪些“在 Hadoop 压缩包里”？哪些“不在”？

✅ 在 hadoop-3.1.1 压缩包里的

❌ 不在 Hadoop 压缩包里的

二、你这个 5 节点集群的“标准放置方式”

推荐部署方式（常见生产）

关键点

三、ZooKeeper 和 Hadoop/YARN 的关系（很重要）

实际关系是：

Hadoop 里“只是用 ZooKeeper”

✅ 在 `hadoop-3.1.1` 压缩包里的