我需要你帮我完成一项调研任务。# 背景：我目前在写一个国家科技项目申报书，我需要了解我的竞争对手的情...

Images:

李坚强-深圳大学人工智能学院大学2025丨对话深大人工智能学院负责人李坚强：产学研生态比“造天才”更重要_教育家_澎湃新闻-The Paper 李坚强教授团队荣获中国人工智能学会一类教学成果奖-深圳大学新闻网具身智能与机器人研究所-深圳大学人工智能学院

下面是我基于你给的 3 个入口（研究所主页/科研成果页/李坚强主页）+ 公开论文检索（arXiv 等）整理出的“深圳大学李坚强团队（具身智能与机器人方向）”在 VLM / VLA / 机器人 相关的研究版图与代表性成果梳理（尽量只写“可被公开材料直接支撑”的内容）。

1) 团队定位与研究方向（面向“具身智能大脑”能力栈）

李坚强团队对应的机构是 深圳大学人工智能学院「具身智能与机器人研究所」，其公开描述的研究方向覆盖了“从感知到决策再到交互”的完整链条：

具身智能基础理论：多模态感知融合、环境建模与认知推理、自适应决策机制
机器人核心技术：仿生机械设计、运动控制与优化、人机协作安全框架
智能交互技术：自然语言理解、情感计算、虚实融合下交互系统
可信 AI 与伦理规范：可解释性、安全认证标准、人机协作伦理
行业应用：医疗康复机器人、智能制造协作机器人、智慧城市服务机器人等 (ai.szu.edu.cn)

这套方向本质上就是“大脑式具身智能”的模块分解（多模态感知≈VLM，决策与控制≈VLA/Policy，交互≈语言对齐与人机协同），但：公开材料里未检索到他们明确以“大脑VLM”作为项目/论文标题的表述（更像是能力目标而非固定品牌名）。

2) 重点成果梳理（按 VLM / VLA / 机器人系统分组）

A. VLM / 多模态生成与理解（视觉—语言）

“伶荔医”医学大模型：图像 → 诊断报告（典型 VLM 任务形态）
学院科研成果页面明确写到：视觉大数据研究中心做“根据图像生成诊断报告的‘伶荔医’医学大模型”，并覆盖 OCT、内窥镜、X 光、CT、病理等多种医学影像，同时结合临床/检验数据做多模态诊断与预后研究。(ai.szu.edu.cn)

对你申报书里“多模态医学/视觉语言生成”方向：这是他们公开露出的最接近 VLM 的标志性点。

学院层面的“医疗报告生成/3D 异常检测”新进展（你可视为潜在延伸能力）
科研成果列表里出现了 AAAI 2025：3D 异常检测、AAAI 2025：双阶段医疗报告生成框架（DAMPER） 的条目（链接指向公众号，当前无法打开全文，但条目本身可作为“对外宣传的成果线索”）。(ai.szu.edu.cn)

B. VLA / 具身智能“从视觉/视频到动作”（更贴近 VLA 的落点）

Video2Reward：从视频生成奖励函数以训练腿式机器人（视觉/视频 + 语言模型 + 控制学习）
这篇工作非常贴近“VLA 时代的训练范式”（把视觉行为示例转成可优化目标），且论文作者/单位中明确包含深圳大学相关学院与国家工程实验室：

论文提出：video→keypoint 轨迹→video2text→LLM 生成 reward，并用“视频辅助迭代式 reward 精炼”不断改进 reward，从而在 IsaacGym 等环境中训练双足/四足多种运动行为。(arXiv)
作者信息里出现深圳大学单位与邮箱域名（szu.edu.cn），可基本确认是深大体系内的具身学习方向成果。(arXiv)

对你关心的 VLA：他们公开最“像 VLA”的点，不一定是“端到端 VLM→action 大模型”，而是 “用视觉/视频+LLM 去生成/改进控制学习目标（reward）” 这一条训练管线。

C. 机器人系统与落地应用（含 SLAM/检测/导航）

核电站安全壳表面缺陷检测智能机器人（工程化落地 + SLAM + 缺陷检测）
学院科研成果页面写到：研发“世界上首套核电站反应堆安全壳表面缺陷检测智能机器人”，并给出了指标（裂缝宽度误差 0.05mm、定位误差 <10cm、检出率 >90%），核心技术包括：

点线特征融合 SLAM（角点追踪 KLT 光流 + LSD 线段特征）
面向裂缝的旋转框多分支检测模型与几何距离感知损失 (ai.szu.edu.cn)
这条线对外展示的是“机器人平台 + 视觉检测 + 定位建图”的强工程能力。

李坚强个人主页列出的“机器人/具身相关代表论文”（更学术化的机器人算法线）
在李坚强主页的“已发表的部分论文”里，直接可见多篇与机器人导航/定位/环境建模相关的论文（这里挑与你主题最相关的）：

A Hybrid Path Planning Method in UAV/UGV Cooperative Systems（IEEE TVT 2016）：空地协同路径规划。(ai.szu.edu.cn)
A Memetic Path Planning Algorithm for UAV/UGV Cooperative Detection Systems（IEEE TASE 2021）：面向协同探测的路径规划算法。(ai.szu.edu.cn)
Global Visual and Semantic Observations for Outdoor Robot Localization（IEEE TNSE 2020）：融合视觉/语义观测的室外机器人定位（“视觉+语义”也可与 VLM 能力嫁接）。(ai.szu.edu.cn)
Diversity-Sensitive GAN for Terrain Mapping…（IEEE TCYB 2020）：地形建图/映射（可视为机器人环境建模能力）。(ai.szu.edu.cn)

3) 他们“目前在做什么”的一页式总结（你写竞对分析可直接用）

（1）方向版图： 以“具身智能与机器人研究所”为组织载体，公开方向覆盖 多模态感知→认知推理→自适应决策→控制/协作→交互→可信 的全栈。(ai.szu.edu.cn)

（2）VLM 相关： 公开最明确的是 医学影像→文本报告 的“伶荔医”（多模态医疗诊断/预后）。(ai.szu.edu.cn)

（3）VLA/具身学习相关： Video2Reward 把“视频示例行为”转为可优化 reward，用 LLM 做可控的行为学习目标生成与迭代改进（非常贴近“从感知语义到动作学习”的关键瓶颈：目标/奖励定义）。(arXiv)

（4）机器人系统落地： 核电缺陷检测机器人（SLAM + 裂缝检测）体现其“重工业场景机器人化+视觉检测”的工程能力与指标牵引。(ai.szu.edu.cn)

4) 你申报书里可用的“竞对特征点”（简短、好写进材料）

强项：
- 具身智能研究方向覆盖面广（感知-决策-交互-可信-应用），且有工程化落地案例与指标（核电检测机器人）。(ai.szu.edu.cn)
- 在“视觉/视频 + LLM”用于具身学习目标构建（reward）方面有公开论文线索（Video2Reward）。(arXiv)
可能的空档（基于公开材料的保守判断）：
- 目前公开资料里，“端到端 VLA 基座模型（VLM→Action 的统一大模型）”作为明确论文/系统品牌的证据不多；更突出的是“奖励/训练范式”“行业机器人系统”。（这点建议你在申报书里把“差异化技术路线”写清楚：例如你们做统一 VLA policy、数据闭环、可泛化操作等。）

如果你愿意，我也可以把上面的内容进一步整理成**“申报书可直接粘贴的竞对分析段落”**（含：技术路线对比表、差异化创新点、风险与对策），并按你项目的具体方向（比如：通用机器人操作/医疗 VLM/具身大模型平台）去“对齐措辞”。