Images:

下面是我基于你给的 3 个入口(研究所主页/科研成果页/李坚强主页)+ 公开论文检索(arXiv 等)整理出的“深圳大学 李坚强 团队(具身智能与机器人方向)”在 VLM / VLA / 机器人 相关的研究版图与代表性成果梳理(尽量只写“可被公开材料直接支撑”的内容)。
1) 团队定位与研究方向(面向“具身智能大脑”能力栈)
李坚强团队对应的机构是 深圳大学人工智能学院「具身智能与机器人研究所」,其公开描述的研究方向覆盖了“从感知到决策再到交互”的完整链条:
- 具身智能基础理论:多模态感知融合、环境建模与认知推理、自适应决策机制
- 机器人核心技术:仿生机械设计、运动控制与优化、人机协作安全框架
- 智能交互技术:自然语言理解、情感计算、虚实融合下交互系统
- 可信 AI 与伦理规范:可解释性、安全认证标准、人机协作伦理
- 行业应用:医疗康复机器人、智能制造协作机器人、智慧城市服务机器人等 (ai.szu.edu.cn)
这套方向本质上就是“大脑式具身智能”的模块分解(多模态感知≈VLM,决策与控制≈VLA/Policy,交互≈语言对齐与人机协同),但:公开材料里未检索到他们明确以“大脑VLM”作为项目/论文标题的表述(更像是能力目标而非固定品牌名)。
2) 重点成果梳理(按 VLM / VLA / 机器人系统分组)
A. VLM / 多模态生成与理解(视觉—语言)
- “伶荔医”医学大模型:图像 → 诊断报告(典型 VLM 任务形态)
学院科研成果页面明确写到:视觉大数据研究中心做“根据图像生成诊断报告的‘伶荔医’医学大模型”,并覆盖 OCT、内窥镜、X 光、CT、病理等多种医学影像,同时结合临床/检验数据做多模态诊断与预后研究。(ai.szu.edu.cn)
- 对你申报书里“多模态医学/视觉语言生成”方向:这是他们公开露出的最接近 VLM 的标志性点。
- 学院层面的“医疗报告生成/3D 异常检测”新进展(你可视为潜在延伸能力)
科研成果列表里出现了 AAAI 2025:3D 异常检测、AAAI 2025:双阶段医疗报告生成框架(DAMPER) 的条目(链接指向公众号,当前无法打开全文,但条目本身可作为“对外宣传的成果线索”)。(ai.szu.edu.cn)
B. VLA / 具身智能“从视觉/视频到动作”(更贴近 VLA 的落点)
- Video2Reward:从视频生成奖励函数以训练腿式机器人(视觉/视频 + 语言模型 + 控制学习)
这篇工作非常贴近“VLA 时代的训练范式”(把视觉行为示例转成可优化目标),且论文作者/单位中明确包含深圳大学相关学院与国家工程实验室:
- 论文提出:video→keypoint 轨迹→video2text→LLM 生成 reward,并用“视频辅助迭代式 reward 精炼”不断改进 reward,从而在 IsaacGym 等环境中训练双足/四足多种运动行为。(arXiv)
- 作者信息里出现深圳大学单位与邮箱域名(szu.edu.cn),可基本确认是深大体系内的具身学习方向成果。(arXiv)
对你关心的 VLA:他们公开最“像 VLA”的点,不一定是“端到端 VLM→action 大模型”,而是 “用视觉/视频+LLM 去生成/改进控制学习目标(reward)” 这一条训练管线。
C. 机器人系统与落地应用(含 SLAM/检测/导航)
- 核电站安全壳表面缺陷检测智能机器人(工程化落地 + SLAM + 缺陷检测)
学院科研成果页面写到:研发“世界上首套核电站反应堆安全壳表面缺陷检测智能机器人”,并给出了指标(裂缝宽度误差 0.05mm、定位误差 <10cm、检出率 >90%),核心技术包括:
- 点线特征融合 SLAM(角点追踪 KLT 光流 + LSD 线段特征)
- 面向裂缝的旋转框多分支检测模型与几何距离感知损失 (ai.szu.edu.cn)
这条线对外展示的是“机器人平台 + 视觉检测 + 定位建图”的强工程能力。
- 李坚强个人主页列出的“机器人/具身相关代表论文”(更学术化的机器人算法线)
在李坚强主页的“已发表的部分论文”里,直接可见多篇与机器人导航/定位/环境建模相关的论文(这里挑与你主题最相关的):
- A Hybrid Path Planning Method in UAV/UGV Cooperative Systems(IEEE TVT 2016):空地协同路径规划。(ai.szu.edu.cn)
- A Memetic Path Planning Algorithm for UAV/UGV Cooperative Detection Systems(IEEE TASE 2021):面向协同探测的路径规划算法。(ai.szu.edu.cn)
- Global Visual and Semantic Observations for Outdoor Robot Localization(IEEE TNSE 2020):融合视觉/语义观测的室外机器人定位(“视觉+语义”也可与 VLM 能力嫁接)。(ai.szu.edu.cn)
- Diversity-Sensitive GAN for Terrain Mapping…(IEEE TCYB 2020):地形建图/映射(可视为机器人环境建模能力)。(ai.szu.edu.cn)
3) 他们“目前在做什么”的一页式总结(你写竞对分析可直接用)
(1)方向版图: 以“具身智能与机器人研究所”为组织载体,公开方向覆盖 多模态感知→认知推理→自适应决策→控制/协作→交互→可信 的全栈。(ai.szu.edu.cn)
(2)VLM 相关: 公开最明确的是 医学影像→文本报告 的“伶荔医”(多模态医疗诊断/预后)。(ai.szu.edu.cn)
(3)VLA/具身学习相关: Video2Reward 把“视频示例行为”转为可优化 reward,用 LLM 做可控的行为学习目标生成与迭代改进(非常贴近“从感知语义到动作学习”的关键瓶颈:目标/奖励定义)。(arXiv)
(4)机器人系统落地: 核电缺陷检测机器人(SLAM + 裂缝检测)体现其“重工业场景机器人化+视觉检测”的工程能力与指标牵引。(ai.szu.edu.cn)
4) 你申报书里可用的“竞对特征点”(简短、好写进材料)
- 强项:
- 具身智能研究方向覆盖面广(感知-决策-交互-可信-应用),且有工程化落地案例与指标(核电检测机器人)。(ai.szu.edu.cn)
- 在“视觉/视频 + LLM”用于具身学习目标构建(reward)方面有公开论文线索(Video2Reward)。(arXiv)
- 可能的空档(基于公开材料的保守判断):
- 目前公开资料里,“端到端 VLA 基座模型(VLM→Action 的统一大模型)”作为明确论文/系统品牌的证据不多;更突出的是“奖励/训练范式”“行业机器人系统”。(这点建议你在申报书里把“差异化技术路线”写清楚:例如你们做统一 VLA policy、数据闭环、可泛化操作等。)
如果你愿意,我也可以把上面的内容进一步整理成**“申报书可直接粘贴的竞对分析段落”**(含:技术路线对比表、差异化创新点、风险与对策),并按你项目的具体方向(比如:通用机器人操作/医疗 VLM/具身大模型平台)去“对齐措辞”。