我最近在做一个关于空间智能的项目,为了让人工智能更加像一个人,我们想将它训练成以ego的视角看待这个...
생성일: 2026년 4월 13일
답변에 사용된 모델 GPT-5.4 Thinking by Chat01
생성일: 2026년 4월 13일
답변에 사용된 모델 GPT-5.4 Thinking by Chat01
我最近在做一个关于空间智能的项目,为了让人工智能更加像一个人,我们想将它训练成以ego的视角看待这个世界,提出了self-reference这个概念。我们调查了现有研究,总结出了“self-reference”和“physical reasoning”研究方向的几大痛点:痛点 1:Self-Referenced Physical Reasoning 的碎片化覆盖Self-referenced 任务零散存在于多个 benchmark 中(STI-Bench 2/8、ECBench 2/30、SAW-Bench 6 tasks、OpenBench 部分任务),尚未将其作为核心组织原则。这导致:MLLM 在 self-referenced physical reasoning 上的系统性能力画像无法被刻画;痛点 2:定量物理估计与 Self-Reference 的脱节定量物理估计(QuantiPhy, OpenBench)和 self-reference(SQA3D, SAW-Bench)分属两个不相交的 benchmark 群体。"Self-referenced × 定量物理估计"(如"那个物体离你多远?→ 3.2m"、"你走了多快?→ 1.2m/s")的交集在现有评测体系中为空。这是一个重要缺失,embodied AI 系统不仅需要知道"物体在你的左边"(定性),还需要知道"离你 2.3 米"(定量);痛点 3: Self-Reference 认知深度结构的缺失。
我们希望建立一个benchmark:SelfPhy-Bench: Benchmarking Self-Reference Physical Reasoning in Egocentric Video,benchmark从四个方向展开:L1: Self-Referenced State Perception(自我参照状态感知)、L2: Self-Referenced Measurement(自我参照物理度量)、L3: Self-Referenced Spatial Recall(自我参照空间回忆)、L4: Self-Referenced Spatiotemporal Prediction(自我参照时空预测)。基于这四个方向,我们将设计问题供AI训练。目前我负责L3层面的问题设计,给你一个详细的说明:L3: Self-Referenced Spatial Recall(自我参照空间回忆)
定义:基于自我运动的累积经历,回忆和重建所经历空间的抽象结构。不是追踪某个具体物体的当前位置,而是理解"我经历了怎样的空间"。
认知本质:Self-reference 从"度量当前可见的具体物理量"扩展到"回忆超越视野的抽象空间结构"。观察者需要将整段运动经历中的 L1(自我运动状态)和 L2(沿途的 self-world 度量)整合起来,构建一个以自我运动轨迹为骨架的空间记忆。这一层回答的核心问题是:模型能否从自身运动经历中,重建所经历空间的结构?
与 L1/L2 的依赖关系:
空间状态回忆(关于"不可见世界相对于我的状态"):3.6:离开视野物体方位,"你之前经过的那扇门,现在在你身后的什么方向?" categorical 物体 3D 坐标 + 当前 ego pose;L3.7:离开视野物体距离,"你之前经过的那扇门,现在离你大约多远?" numerical (m) 物体 3D 坐标 + 当前 ego 位置;L3.8:空间更新,"你转身之后,那个桌子现在在你的左边还是右边?" categorical 转向角度 + 原始相对方位:L3.9:跨时空间比较,"你现在所在的空间和你之前经过的空间,哪个更大?" ordinal 3D 重建沿轨迹采样;L3.10:空间特征回忆,"你走过的路段中,最窄的部分在前段、中段还是后段?" categorical 3D 重建沿轨迹宽度采样
把上述问题给gemini之后它给了我如下回答:为了让 Benchmark 更有系统性,我建议将 L3 重新划分为三个核心认知维度:路径积分 (Path Integration)、对象存留 (Object Permanence) 以及 全局联结 (Global Synthesis)。L3: Self-Referenced Spatial Recall (能力重构方案)维度一:轨迹拓扑与路径积分 (Ego-Trajectory & Path Integration)核心逻辑:模型仅凭对自身运动感知的累积(L1),能否在脑中“盲画”出运动轨迹。这是空间感的基础。能力细分认知目标题目示例回答形式L3-A1 几何拓扑分类对位移和转向的宏观抽象“从视频开始到现在,你的移动轨迹最接近哪个字母?(A) L型 (B) U型 (C) 直线”Categorical (MCQ)L3-A2 关键运动计数对离散运动事件的记忆频次“在整段路程中,你总共进行了多少次超过 45 度的转弯?”Numerical (Integer)L3-A3 回路闭合检测判断起始点与终点的重合度“你当前位置距离起点是否在 2 米以内?”Binary (Yes/No)L3-A4 垂直位移估计对 Z 轴变化的累积感知“相比于起点,你现在的海拔高度变化了多少米?”Numerical (m, float)维度二:离轴对象持久性 (Off-screen Object Permanence)核心逻辑:当物体离开视野后,模型能否根据自身位移(L1)实时更新物体相对于当前自我的相对位置(L2 的延伸)。能力细分认知目标题目示例回答形式L3-B1 空间更新 (Pointing)自我旋转后对不可见目标的定向“你现在转身 180 度,刚才路过的饮水机现在在你的几点钟方向?”Circular (Clock/Degree)L3-B2 动态距离追踪随着自我移动,更新与旧目标的距离“你继续向前走 5 米后,起点处的门离你大约有多远?”Numerical (m)L3-B3 空间遮蔽判断回忆物体在全局结构中的位置关系“在当前位置,你与最初看到的那个沙发之间是否隔着一堵墙?”Binary (Yes/No)维度三:环境抽象与横向比较 (Environmental Synthesis & Comparison)核心逻辑:将多段时空的感知进行“拼图”,形成对环境属性(L2 累积)的宏观评价。能力细分认知目标题目示例回答形式L3-C1 空间属性极值在记忆流中寻找特定特征的时刻“在你经过的所有房间中,哪一个房间的面积最大?(A) 第一个 (B) 第二个...”Ordinal / MCQL3-C2 拓扑分段统计对环境切换节点的识别“你一共穿越了多少个不同的独立功能分区(如从走廊进入办公室)?”Numerical (Integer)L3-C3 瓶颈区域定位结合路径与宽度的时空定位“整段路径中最狭窄(通过性最差)的区域出现在视频的哪个阶段?(前/中/后期)”Categorical给你的几个设计建议(针对第一次做 Benchmark):1. 引入“反事实”扰动(Counterfactual Probing)为了验证 AI 是真的在进行“空间推理”还是在“瞎猜”,你可以设置一些陷阱。示例:“如果你在 30 秒处没有左转而是右转,你现在会离起点更近还是更远?”价值:这能直接区分 MLLM 是在做简单的图像序列记忆,还是在脑中构建了 3D 物理模型。2. 强调“定量”与“容差”既然你的痛点 2 提到了定量缺失,那么在 L3 中:不要只问“远不远”,要问“几米”。评分标准:设定一个容差 (例如误差在 15% 以内算对)。公式化表达:。3. 注意“参考系”的严格定义在提问时,必须明确 Ego-frame。错误问法:门在左边还是右边?(模糊)正确问法:以你当前的视线为正前方,门在你的左手侧还是右手侧?4. 数据集的协同(Multi-modal consistency)既然是 Egocentric Video,建议题目设计要覆盖:可见信息推理:基于当前帧看到的。隐去信息回忆:基于 50 帧前看到但现在看不见的(这是 L3 的灵魂)。
你觉得它的回答基本覆盖了L3的要求吗?还是需要进一步完善?
根据现有的以及gemini提供的关于“能力”的分类角度,你帮我再好好整合一下,并配好设置的题目示例、回答形式。
我觉得 Gemini 的回答基本抓住了 L3 的主干,但还没有完全覆盖你们对 L3 的原始定义。更准确地说:
它适合作为“一级能力框架”,但还不够直接拿来当你们的最终 benchmark taxonomy。
你们原始定义里的两个关键点,它覆盖得还不够完整:
第一,“空间状态回忆”没有被充分展开。
Gemini 很强调 path integration 和 off-screen object update,这很好,但你们 L3 不只是“我走过什么路径”“那个看不见的物体现在在哪”,还包括**“我经历了怎样的空间”**,例如:
这些其实是你们 L3 最有辨识度的地方,也是它和普通 object permanence 区分最明显的地方。
第二,Gemini 的“反事实”建议更像诊断任务,不太适合直接并入 L3 主干。
因为“如果 30 秒时没左转而是右转”已经不是单纯 recall,而是引入了未发生轨迹的假设模拟,这更接近 L4 的预测/规划能力。它可以做成:
所以我的建议是:
保留 Gemini 的 3 个大类视角,因为它更整洁;
保留你们原来的 10 个原子能力点,因为它更完整、可落地。
也就是做成一个“两层结构”:
这样既有论文叙事性,也有 benchmark 的可操作性。
定义:基于自我运动的累积经历,回忆和重建已经历空间的抽象结构,并更新不可见空间/目标相对于当前自我的状态。
核心问题:模型能否从“我如何移动 + 我沿途经历了什么”中,重建“我经历了怎样的空间”。
对应 Gemini 的 Path Integration,也对应你们原始 L3.1/L3.2/L3.3/L3.4。
核心是:只靠自我运动累积,能否重建“我走过怎样的路”。
能力目标:将整段 ego motion 抽象成宏观路径形状。
题目示例:
回答形式:Categorical / MCQ
对应原始能力:L3.1
能力目标:记忆并累计关键 heading change 事件。
题目示例:
回答形式:Numerical (Integer)
对应原始能力:L3.2
能力目标:判断当前位置是否已接近起点,是否形成闭合回路。
题目示例:
回答形式:Binary / Categorical
可扩展形式:
对应原始能力:L3.3
能力目标:累计 Z 轴位移,回忆上升/下降趋势与量级。
题目示例:
回答形式:
对应原始能力:L3.4
我建议把 Gemini 的 Object Permanence 改名为这个。
因为你们要测的不是“它是否还存在”,而是:
“它离开视野后,我能否根据自己的运动,把它相对我的位置持续更新出来。”
对应你们原始 L3.6/L3.7/L3.8。
能力目标:回忆并定位过去见过、当前不可见目标相对当前自我的方向。
题目示例:
回答形式:
对应原始能力:L3.6
这里我更建议用 8 方位离散分类,比“几点钟方向”更稳,评分也更统一。
能力目标:估计过去见过、当前不可见目标到当前自我的距离。
题目示例:
回答形式:Numerical (meters, float)
评分建议:设相对误差容差,比如 10%–15%
对应原始能力:L3.7
能力目标:在自我旋转/转向后,更新过去目标的相对位置表征。
题目示例:
回答形式:Categorical / Binary
对应原始能力:L3.8
这个能力和 B1 接近,但我建议单列。
因为 B1 更偏全程累积后的绝对更新,B3 更偏局部姿态变换带来的即时空间更新。
对应 Gemini 的 Global Synthesis / Environmental Comparison,也对应你们原始 L3.5/L3.9/L3.10。
这是 Gemini 相对欠缺、但你们最该强化的一组。
核心是:我不只是记得路和物体,我还记得“我经历的空间本身是什么样”。
能力目标:识别轨迹中经过了多少个可区分的房间/区域/功能空间。
题目示例:
回答形式:Numerical (Integer)
对应原始能力:L3.5
这里“房间/区域”的标注标准一定要先定义清楚。
否则容易让模型错在 annotation 不一致,而不是错在空间记忆。
能力目标:比较不同时段经历过的空间在尺度或开阔度上的相对关系。
题目示例:
回答形式:Ordinal / Pairwise Comparison
对应原始能力:L3.9
能力目标:在整段空间记忆中定位某种属性的极值出现在哪一段。
题目示例:
回答形式:Categorical / Ordinal
对应原始能力:L3.10
最推荐的写法不是“推翻重来”,而是:
这样做有三个好处:
建议改为:
因为你们测的不是“物体是否持续存在”,而是: 随着我移动,它相对我的位置是否被正确更新。
它有 C1/C2/C3,但还不够强调这是 L3 的核心组成部分。
你们应该明确写出:
L3 不仅是 path memory,也不仅是 off-screen object update,
更是对已经历空间结构的抽象重建。
这句话非常重要。
原因很简单:
所以更合适的定位是:
而不是 L3 主 benchmark 的正式子能力。
为了后面 benchmark 更规整,最好把回答空间收敛到这几类:
适合:
适合:
适合:
适合:
题目里最好总是显式写:
否则会混进 allocentric 解法。
因为 L3 的本质是 recall。
所以 B/C 类题最好保证:
否则就退化成 L1/L2 或普通 VQA。
所以像:
这类可以做扩展题,但不要放进核心 L3。
你可以直接改写成下面这种表达:
We organize L3: Self-Referenced Spatial Recall into three cognitive dimensions:
(1) Trajectory Structure & Path Integration, which measures whether a model can reconstruct its traveled path from accumulated egomotion;
(2) Off-screen Target Updating, which measures whether a model can update the egocentric direction and distance of previously observed but currently invisible targets;
(3) Environmental Structure Synthesis, which measures whether a model can abstract and compare the structural properties of spaces experienced along its trajectory.
Under these three dimensions, we instantiate 10 atomic capabilities covering path topology recall, turn counting, loop closure judgment, vertical displacement recall, off-screen target direction recall, off-screen target distance recall, post-rotation spatial updating, spatial segment counting, cross-time spatial comparison, and spatial feature extremum localization.
如果让我给一个结论:
Gemini 的回答可以作为“整理框架”的起点,但还不能直接作为你们 L3 的最终定义。
最好的做法不是二选一,而是:
用 Gemini 的 3 大维度做外层框架,
用你们原始的 10 个任务点做内层能力实现。
这样最稳,也最像一个成熟 benchmark。
你要的话,我下一步可以直接帮你把这套内容整理成一版论文风格的小节草稿,包括: