我最近在做一个关于空间智能的项目，为了让人工智能更加像一个人，我们想将它训练成以ego的视角看待这个...

생성일: 2026년 4월 13일

질문

我最近在做一个关于空间智能的项目，为了让人工智能更加像一个人，我们想将它训练成以ego的视角看待这个世界，提出了self-reference这个概念。我们调查了现有研究，总结出了“self-reference”和“physical reasoning”研究方向的几大痛点：痛点 1：Self-Referenced Physical Reasoning 的碎片化覆盖Self-referenced 任务零散存在于多个 benchmark 中（STI-Bench 2/8、ECBench 2/30、SAW-Bench 6 tasks、OpenBench 部分任务），尚未将其作为核心组织原则。这导致：MLLM 在 self-referenced physical reasoning 上的系统性能力画像无法被刻画；痛点 2：定量物理估计与 Self-Reference 的脱节定量物理估计（QuantiPhy, OpenBench）和 self-reference（SQA3D, SAW-Bench）分属两个不相交的 benchmark 群体。"Self-referenced × 定量物理估计"（如"那个物体离你多远？→ 3.2m"、"你走了多快？→ 1.2m/s"）的交集在现有评测体系中为空。这是一个重要缺失，embodied AI 系统不仅需要知道"物体在你的左边"（定性），还需要知道"离你 2.3 米"（定量）；痛点 3： Self-Reference 认知深度结构的缺失。
我们希望建立一个benchmark:SelfPhy-Bench: Benchmarking Self-Reference Physical Reasoning in Egocentric Video，benchmark从四个方向展开：L1: Self-Referenced State Perception（自我参照状态感知）、L2: Self-Referenced Measurement（自我参照物理度量）、L3: Self-Referenced Spatial Recall（自我参照空间回忆）、L4: Self-Referenced Spatiotemporal Prediction（自我参照时空预测）。基于这四个方向，我们将设计问题供AI训练。目前我负责L3层面的问题设计，给你一个详细的说明：L3: Self-Referenced Spatial Recall（自我参照空间回忆）
定义：基于自我运动的累积经历，回忆和重建所经历空间的抽象结构。不是追踪某个具体物体的当前位置，而是理解"我经历了怎样的空间"。
认知本质：Self-reference 从"度量当前可见的具体物理量"扩展到"回忆超越视野的抽象空间结构"。观察者需要将整段运动经历中的 L1（自我运动状态）和 L2（沿途的 self-world 度量）整合起来，构建一个以自我运动轨迹为骨架的空间记忆。这一层回答的核心问题是：模型能否从自身运动经历中，重建所经历空间的结构？
与 L1/L2 的依赖关系：

依赖 L1：路径拓扑回忆需要累积自我的运动方向、转向次数、位移量。
依赖 L2：空间特征回忆（沿途空间的开阔/狭窄、上升/下降）需要沿途 self-world 度量的记忆。
能力覆盖：L3 的能力分为两大类：路径结构回忆和空间状态回忆。
路径结构回忆（关于"我走过的路"）：L3.1：路径拓扑回忆，"你走过的路径大致是什么形状？直线 / L 型 / U 型 / 环形？"categorical3D 轨迹俯视投影分类；L3.2：转弯计数，"你从进入这个空间到现在，转了几次弯？"numerical (count) 轨迹 heading 变化检测；L3.3：空间闭合判断，"你是否回到了接近起点的位置？"categorical 轨迹首尾 3D 距离；L3.4：垂直变化回忆，"你从进门到现在，上升了还是下降了？大约几层楼？" categorical + numerical 3D 轨迹 Z 轴累积变化：L3.5：空间分段计数，"你刚才经过了几个不同的房间/区域？" numerical (count)，3D 重建 + 空间分割

空间状态回忆（关于"不可见世界相对于我的状态"）：3.6：离开视野物体方位，"你之前经过的那扇门，现在在你身后的什么方向？" categorical 物体 3D 坐标 + 当前 ego pose；L3.7：离开视野物体距离，"你之前经过的那扇门，现在离你大约多远？" numerical (m) 物体 3D 坐标 + 当前 ego 位置；L3.8：空间更新，"你转身之后，那个桌子现在在你的左边还是右边？" categorical 转向角度 + 原始相对方位：L3.9：跨时空间比较，"你现在所在的空间和你之前经过的空间，哪个更大？" ordinal 3D 重建沿轨迹采样；L3.10：空间特征回忆，"你走过的路段中，最窄的部分在前段、中段还是后段？" categorical 3D 重建沿轨迹宽度采样

把上述问题给gemini之后它给了我如下回答：为了让 Benchmark 更有系统性，我建议将 L3 重新划分为三个核心认知维度：路径积分 (Path Integration)、对象存留 (Object Permanence) 以及全局联结 (Global Synthesis)。L3: Self-Referenced Spatial Recall (能力重构方案)维度一：轨迹拓扑与路径积分 (Ego-Trajectory & Path Integration)核心逻辑：模型仅凭对自身运动感知的累积（L1），能否在脑中“盲画”出运动轨迹。这是空间感的基础。能力细分认知目标题目示例回答形式L3-A1 几何拓扑分类对位移和转向的宏观抽象“从视频开始到现在，你的移动轨迹最接近哪个字母？(A) L型 (B) U型 (C) 直线”Categorical (MCQ)L3-A2 关键运动计数对离散运动事件的记忆频次“在整段路程中，你总共进行了多少次超过 45 度的转弯？”Numerical (Integer)L3-A3 回路闭合检测判断起始点与终点的重合度“你当前位置距离起点是否在 2 米以内？”Binary (Yes/No)L3-A4 垂直位移估计对 Z 轴变化的累积感知“相比于起点，你现在的海拔高度变化了多少米？”Numerical (m, float)维度二：离轴对象持久性 (Off-screen Object Permanence)核心逻辑：当物体离开视野后，模型能否根据自身位移（L1）实时更新物体相对于当前自我的相对位置（L2 的延伸）。能力细分认知目标题目示例回答形式L3-B1 空间更新 (Pointing)自我旋转后对不可见目标的定向“你现在转身 180 度，刚才路过的饮水机现在在你的几点钟方向？”Circular (Clock/Degree)L3-B2 动态距离追踪随着自我移动，更新与旧目标的距离“你继续向前走 5 米后，起点处的门离你大约有多远？”Numerical (m)L3-B3 空间遮蔽判断回忆物体在全局结构中的位置关系“在当前位置，你与最初看到的那个沙发之间是否隔着一堵墙？”Binary (Yes/No)维度三：环境抽象与横向比较 (Environmental Synthesis & Comparison)核心逻辑：将多段时空的感知进行“拼图”，形成对环境属性（L2 累积）的宏观评价。能力细分认知目标题目示例回答形式L3-C1 空间属性极值在记忆流中寻找特定特征的时刻“在你经过的所有房间中，哪一个房间的面积最大？(A) 第一个 (B) 第二个...”Ordinal / MCQL3-C2 拓扑分段统计对环境切换节点的识别“你一共穿越了多少个不同的独立功能分区（如从走廊进入办公室）？”Numerical (Integer)L3-C3 瓶颈区域定位结合路径与宽度的时空定位“整段路径中最狭窄（通过性最差）的区域出现在视频的哪个阶段？(前/中/后期)”Categorical给你的几个设计建议（针对第一次做 Benchmark）：1. 引入“反事实”扰动（Counterfactual Probing）为了验证 AI 是真的在进行“空间推理”还是在“瞎猜”，你可以设置一些陷阱。示例：“如果你在 30 秒处没有左转而是右转，你现在会离起点更近还是更远？”价值：这能直接区分 MLLM 是在做简单的图像序列记忆，还是在脑中构建了 3D 物理模型。2. 强调“定量”与“容差”既然你的痛点 2 提到了定量缺失，那么在 L3 中：不要只问“远不远”，要问“几米”。评分标准：设定一个容差 $\sigma$ （例如误差在 15% 以内算对）。公式化表达： $Score = \max(0, 1 - \frac{|Pre - GT|}{GT \times \text{threshold}})$ 。3. 注意“参考系”的严格定义在提问时，必须明确 Ego-frame。错误问法：门在左边还是右边？（模糊）正确问法：以你当前的视线为正前方，门在你的左手侧还是右手侧？4. 数据集的协同（Multi-modal consistency）既然是 Egocentric Video，建议题目设计要覆盖：可见信息推理：基于当前帧看到的。隐去信息回忆：基于 50 帧前看到但现在看不见的（这是 L3 的灵魂）。
你觉得它的回答基本覆盖了L3的要求吗？还是需要进一步完善？

根据现有的以及gemini提供的关于“能力”的分类角度，你帮我再好好整合一下，并配好设置的题目示例、回答形式。

사고

我先把你的原始 L3 定义和 Gemini 的重构对齐了一遍。初步判断是：它已经抓住了 L3 的主干，但还不够“贴你们的定义”，尤其是在“空间状态回忆”和“与 L4 的边界”上还需要再收紧。

Thought for 1m 0s

답변

我觉得 Gemini 的回答基本抓住了 L3 的主干，但还没有完全覆盖你们对 L3 的原始定义。更准确地说：

它适合作为“一级能力框架”，但还不够直接拿来当你们的最终 benchmark taxonomy。
你们原始定义里的两个关键点，它覆盖得还不够完整：

第一，“空间状态回忆”没有被充分展开。
Gemini 很强调 path integration 和 off-screen object update，这很好，但你们 L3 不只是“我走过什么路径”“那个看不见的物体现在在哪”，还包括**“我经历了怎样的空间”**，例如：

经过了几个空间段
哪一段更大/更窄
最窄处在前中后哪个阶段
某段空间相较另一段更开阔还是更局促

这些其实是你们 L3 最有辨识度的地方，也是它和普通 object permanence 区分最明显的地方。

第二，Gemini 的“反事实”建议更像诊断任务，不太适合直接并入 L3 主干。
因为“如果 30 秒时没左转而是右转”已经不是单纯 recall，而是引入了未发生轨迹的假设模拟，这更接近 L4 的预测/规划能力。它可以做成：

L3 的 stress test
或者附录里的 diagnostic split
但不建议放进 L3 主 benchmark 的核心能力定义里。

所以我的建议是：

保留 Gemini 的 3 个大类视角，因为它更整洁；
保留你们原来的 10 个原子能力点，因为它更完整、可落地。

也就是做成一个“两层结构”：

一级：3 个核心认知维度
二级：10 个具体能力单元

这样既有论文叙事性，也有 benchmark 的可操作性。

我建议的 L3 最终整合版

L3: Self-Referenced Spatial Recall

定义：基于自我运动的累积经历，回忆和重建已经历空间的抽象结构，并更新不可见空间/目标相对于当前自我的状态。
核心问题：模型能否从“我如何移动 + 我沿途经历了什么”中，重建“我经历了怎样的空间”。

一级维度 A：轨迹结构与路径积分

对应 Gemini 的 Path Integration，也对应你们原始 L3.1/L3.2/L3.3/L3.4。
核心是：只靠自我运动累积，能否重建“我走过怎样的路”。

A1. 路径拓扑回忆

能力目标：将整段 ego motion 抽象成宏观路径形状。
题目示例：

“从视频开始到现在，你走过的路径俯视形状最接近哪一种？A. 直线 B. L 型 C. U 型 D. 环形”
“你的移动轨迹整体更像直线、折线还是回环？”

回答形式：Categorical / MCQ
对应原始能力：L3.1

A2. 转弯计数

能力目标：记忆并累计关键 heading change 事件。
题目示例：

“从进入这个空间到现在，你总共发生了几次明显转弯？”
“整段过程中，超过 45° 的转向一共出现了多少次？”

回答形式：Numerical (Integer)
对应原始能力：L3.2

A3. 空间闭合/回返判断

能力目标：判断当前位置是否已接近起点，是否形成闭合回路。
题目示例：

“你现在是否已经回到了接近起点的位置？”
“你当前位置距离起点是否在 2 米以内？”

回答形式：Binary / Categorical
可扩展形式：

Binary：是/否
Ordinal：很近 / 一般 / 很远

对应原始能力：L3.3

A4. 垂直变化回忆

能力目标：累计 Z 轴位移，回忆上升/下降趋势与量级。
题目示例：

“从起点到现在，你整体是在上升还是下降？”
“相比起点，你大约变化了几层楼？”
“相比进入时，你现在大约高了多少米？”

回答形式：

Categorical：上升 / 下降 / 基本不变
Numerical：楼层数 / 米数

对应原始能力：L3.4

一级维度 B：离视野目标的自我参照更新

我建议把 Gemini 的 Object Permanence 改名为这个。
因为你们要测的不是“它是否还存在”，而是：
“它离开视野后，我能否根据自己的运动，把它相对我的位置持续更新出来。”

对应你们原始 L3.6/L3.7/L3.8。

B1. 离视野目标方位回忆

能力目标：回忆并定位过去见过、当前不可见目标相对当前自我的方向。
题目示例：

“你之前经过的那扇门，现在在你身后的什么方向？”
“以你当前朝向为正前方，刚才看到的饮水机现在在你的左后方、正后方还是右后方？”
“你之前经过的桌子，现在大致在你的几点钟方向？”

回答形式：

Categorical：8-way direction（前 / 左前 / 左 / 左后 / 后 / 右后 / 右 / 右前）
或 Circular：Clock direction / Degree bin

对应原始能力：L3.6

这里我更建议用 8 方位离散分类，比“几点钟方向”更稳，评分也更统一。

B2. 离视野目标距离回忆

能力目标：估计过去见过、当前不可见目标到当前自我的距离。
题目示例：

“你之前经过的那扇门，现在离你大约多远？”
“最开始看到的沙发，现在距离你大约多少米？”

回答形式：Numerical (meters, float)
评分建议：设相对误差容差，比如 10%–15%
对应原始能力：L3.7

B3. 姿态变化下的空间更新

能力目标：在自我旋转/转向后，更新过去目标的相对位置表征。
题目示例：

“你转身之后，刚才那个桌子现在在你的左边还是右边？”
“如果只考虑你刚刚完成的转身动作，之前经过的门现在更接近你的前方还是后方？”
“你现在身体朝向改变后，那个离开视野的柜子是在你左手侧还是右手侧？”

回答形式：Categorical / Binary
对应原始能力：L3.8

这个能力和 B1 接近，但我建议单列。
因为 B1 更偏全程累积后的绝对更新，B3 更偏局部姿态变换带来的即时空间更新。

一级维度 C：环境结构抽象与空间状态回忆

对应 Gemini 的 Global Synthesis / Environmental Comparison，也对应你们原始 L3.5/L3.9/L3.10。
这是 Gemini 相对欠缺、但你们最该强化的一组。

核心是：我不只是记得路和物体，我还记得“我经历的空间本身是什么样”。

C1. 空间分段计数

能力目标：识别轨迹中经过了多少个可区分的房间/区域/功能空间。
题目示例：

“你刚才一共经过了几个不同的房间或区域？”
“从开始到现在，你穿过了多少个相互分开的空间段？”
“你经历了几个不同功能区，例如走廊、办公室、会议室之类？”

回答形式：Numerical (Integer)
对应原始能力：L3.5

这里“房间/区域”的标注标准一定要先定义清楚。
否则容易让模型错在 annotation 不一致，而不是错在空间记忆。

C2. 跨时空间比较

能力目标：比较不同时段经历过的空间在尺度或开阔度上的相对关系。
题目示例：

“你现在所在的空间和之前经过的那个空间，哪个更大？”
“你经过的第一个房间和当前房间相比，哪个更开阔？”
“刚才经过的走廊与现在所处区域相比，哪一个更狭窄？”

回答形式：Ordinal / Pairwise Comparison
对应原始能力：L3.9

C3. 空间特征极值定位

能力目标：在整段空间记忆中定位某种属性的极值出现在哪一段。
题目示例：

“你走过的路段中，最窄的部分在前段、中段还是后段？”
“整段过程中，最开阔的区域更接近开始、中间还是结尾？”
“哪一段空间的通过性最差？”

回答形式：Categorical / Ordinal
对应原始能力：L3.10

你们原始方案和 Gemini 方案怎么合并最顺

最推荐的写法不是“推翻重来”，而是：

论文里写成两层

第一层：3 个认知维度

Trajectory Structure & Path Integration
Off-screen Target Updating
Environmental Structure Synthesis

第二层：10 个原子能力

A1 路径拓扑回忆
A2 转弯计数
A3 空间闭合判断
A4 垂直变化回忆
B1 离视野目标方位回忆
B2 离视野目标距离回忆
B3 姿态变化下的空间更新
C1 空间分段计数
C2 跨时空间比较
C3 空间特征极值定位

这样做有三个好处：

对外叙事更干净：3 大类一眼能懂
对内设计更完整：保住了你们原来 L3 的细粒度优势
和 L1/L2/L4 边界更清楚

我对 Gemini 方案的具体修订意见

1. “Object Permanence”这个名字不够准

建议改为：

Off-screen Target Updating
或 Egocentric Updating of Unseen Targets

因为你们测的不是“物体是否持续存在”，而是： 随着我移动，它相对我的位置是否被正确更新。

2. Gemini 漏掉了你们 L3 最关键的一块：空间结构抽象

它有 C1/C2/C3，但还不够强调这是 L3 的核心组成部分。
你们应该明确写出：

L3 不仅是 path memory，也不仅是 off-screen object update，
更是对已经历空间结构的抽象重建。

这句话非常重要。

3. “反事实 probing”建议降级为附加诊断集

原因很简单：

它不是纯 recall
它引入了未发生动作序列
它更接近 simulation / prediction

所以更合适的定位是：

L3-Diagnostic
或 Auxiliary Counterfactual Split

而不是 L3 主 benchmark 的正式子能力。

题目设计时我建议你们统一的回答形式

为了后面 benchmark 更规整，最好把回答空间收敛到这几类：

1. Categorical / MCQ

适合：

路径形状
方位
极值阶段
上升/下降

2. Numerical (Integer)

适合：

转弯次数
房间/区域数量

3. Numerical (Float)

适合：

距离
高度变化
楼层变化换算

4. Ordinal / Pairwise

适合：

哪个更大
哪段更窄
哪个更开阔

额外建议：为了让 L3 更“干净”，最好加三条出题规范

规范 1：严格限定参考系

题目里最好总是显式写：

“以你当前身体朝向为前方”
“以你当前视线为正前方”
“相对于你现在的位置”

否则会混进 allocentric 解法。

规范 2：尽量避免当前帧直接可见

因为 L3 的本质是 recall。
所以 B/C 类题最好保证：

问到的目标当前不可见
问到的空间属性不能靠最后一帧直接猜出来

否则就退化成 L1/L2 或普通 VQA。

规范 3：L3 只问“经历过的空间”，不问“未经历的未来”

所以像：

“如果你刚刚没左转会怎样”
“再往前走 5 米后门会在哪”

这类可以做扩展题，但不要放进核心 L3。

我给你的一个可直接放进文档的整合版

你可以直接改写成下面这种表达：

We organize L3: Self-Referenced Spatial Recall into three cognitive dimensions:
(1) Trajectory Structure & Path Integration, which measures whether a model can reconstruct its traveled path from accumulated egomotion;
(2) Off-screen Target Updating, which measures whether a model can update the egocentric direction and distance of previously observed but currently invisible targets;
(3) Environmental Structure Synthesis, which measures whether a model can abstract and compare the structural properties of spaces experienced along its trajectory.
Under these three dimensions, we instantiate 10 atomic capabilities covering path topology recall, turn counting, loop closure judgment, vertical displacement recall, off-screen target direction recall, off-screen target distance recall, post-rotation spatial updating, spatial segment counting, cross-time spatial comparison, and spatial feature extremum localization.

如果让我给一个结论：

Gemini 的回答可以作为“整理框架”的起点，但还不能直接作为你们 L3 的最终定义。
最好的做法不是二选一，而是：

用 Gemini 的 3 大维度做外层框架，
用你们原始的 10 个任务点做内层能力实现。

这样最稳，也最像一个成熟 benchmark。

你要的话，我下一步可以直接帮你把这套内容整理成一版论文风格的小节草稿，包括：

L3 的正式定义
3 个一级维度
10 个二级能力
每个能力的题目模板与回答格式
这样你几乎可以直接贴进 benchmark 设计文档里。

질문

사고

답변