我需要你帮我完成一项调研任务。# 背景:我目前在写一个国家科技项目申报书,我需要了解我的竞争对手的情...

作成日: 2026年1月8日

使用モデル GPT-5.2 Thinking by Chat01

質問

我需要你帮我完成一项调研任务。# 背景:我目前在写一个国家科技项目申报书,我需要了解我的竞争对手的情况。请你帮我调研深圳大学 李坚强 团队做了什么事情,主要看下大脑VLM, 和VLA 相关工作,梳理下他们目前的工作。## 我给你提供他们团队的相关信息:1、团队主页:https://ai.szu.edu.cn/jgsz/yjs/jsznyjqryjs.htm 2、团队科研成果主页:https://ai.szu.edu.cn/kxyj/kycg.htm 3、李坚强老师的主页:https://csse.szu.edu.cn/pages/user/index?id=595 # 你的任务:1、你需要搜索调研他们团队的研究成果,包括论文,主要关注VLM、VLA、机器人相关的。2、梳理出他们的主要工作

思考

Organizing response based on user request

I’ll include information on "伶荔医" and industrial big data, using resources I’ve already checked. The term "大脑VLM" could refer to a brain-like model, matching their research on environment modeling and cognitive reasoning. The user asked for the main tasks, so I'll structure everything into sections, including research directions, application areas, and collaborations. The final deliverable will have two main sections, with specific subsections related to VLM/VLA and robotics. I'll mention ties with the industry as well.

Structuring the response for clarity and conciseness

I’ll include a subsection on robotics systems and applications—like nuclear defect detection, UAV/UGV path planning, and terrain mapping. I’ll give a list of key papers for context and mention necessary citations from the relevant sections. Then, I’ll summarize current work and optionally add competitive analysis. Sections will stay concise to avoid unnecessary verbosity. I’ll be careful with WeChat links and anonymity for individuals other than Li, ensuring relevant citations for all areas.

Thought for 4m 16s

回答

Images:

李坚强-深圳大学人工智能学院 大学2025丨对话深大人工智能学院负责人李坚强:产学研生态比“造天才”更重要_教育家_澎湃新闻-The Paper 李坚强教授团队荣获中国人工智能学会一类教学成果奖-深圳大学新闻网 具身智能与机器人研究所-深圳大学人工智能学院

下面是我基于你给的 3 个入口(研究所主页/科研成果页/李坚强主页)+ 公开论文检索(arXiv 等)整理出的“深圳大学 李坚强 团队(具身智能与机器人方向)”在 VLM / VLA / 机器人 相关的研究版图与代表性成果梳理(尽量只写“可被公开材料直接支撑”的内容)。


1) 团队定位与研究方向(面向“具身智能大脑”能力栈)

李坚强团队对应的机构是 深圳大学人工智能学院「具身智能与机器人研究所」,其公开描述的研究方向覆盖了“从感知到决策再到交互”的完整链条:

  • 具身智能基础理论:多模态感知融合、环境建模与认知推理、自适应决策机制
  • 机器人核心技术:仿生机械设计、运动控制与优化、人机协作安全框架
  • 智能交互技术:自然语言理解、情感计算、虚实融合下交互系统
  • 可信 AI 与伦理规范:可解释性、安全认证标准、人机协作伦理
  • 行业应用:医疗康复机器人、智能制造协作机器人、智慧城市服务机器人等 (ai.szu.edu.cn)

这套方向本质上就是“大脑式具身智能”的模块分解(多模态感知≈VLM,决策与控制≈VLA/Policy,交互≈语言对齐与人机协同),但:公开材料里未检索到他们明确以“大脑VLM”作为项目/论文标题的表述(更像是能力目标而非固定品牌名)。


2) 重点成果梳理(按 VLM / VLA / 机器人系统分组)

A. VLM / 多模态生成与理解(视觉—语言)

  1. “伶荔医”医学大模型:图像 → 诊断报告(典型 VLM 任务形态)
    学院科研成果页面明确写到:视觉大数据研究中心做“根据图像生成诊断报告的‘伶荔医’医学大模型”,并覆盖 OCT、内窥镜、X 光、CT、病理等多种医学影像,同时结合临床/检验数据做多模态诊断与预后研究。(ai.szu.edu.cn)
  • 对你申报书里“多模态医学/视觉语言生成”方向:这是他们公开露出的最接近 VLM 的标志性点。
  1. 学院层面的“医疗报告生成/3D 异常检测”新进展(你可视为潜在延伸能力)
    科研成果列表里出现了 AAAI 2025:3D 异常检测AAAI 2025:双阶段医疗报告生成框架(DAMPER) 的条目(链接指向公众号,当前无法打开全文,但条目本身可作为“对外宣传的成果线索”)。(ai.szu.edu.cn)

B. VLA / 具身智能“从视觉/视频到动作”(更贴近 VLA 的落点)

  1. Video2Reward:从视频生成奖励函数以训练腿式机器人(视觉/视频 + 语言模型 + 控制学习)
    这篇工作非常贴近“VLA 时代的训练范式”(把视觉行为示例转成可优化目标),且论文作者/单位中明确包含深圳大学相关学院与国家工程实验室:
  • 论文提出:video→keypoint 轨迹→video2text→LLM 生成 reward,并用“视频辅助迭代式 reward 精炼”不断改进 reward,从而在 IsaacGym 等环境中训练双足/四足多种运动行为。(arXiv)
  • 作者信息里出现深圳大学单位与邮箱域名(szu.edu.cn),可基本确认是深大体系内的具身学习方向成果。(arXiv)

对你关心的 VLA:他们公开最“像 VLA”的点,不一定是“端到端 VLM→action 大模型”,而是 “用视觉/视频+LLM 去生成/改进控制学习目标(reward)” 这一条训练管线。


C. 机器人系统与落地应用(含 SLAM/检测/导航)

  1. 核电站安全壳表面缺陷检测智能机器人(工程化落地 + SLAM + 缺陷检测)
    学院科研成果页面写到:研发“世界上首套核电站反应堆安全壳表面缺陷检测智能机器人”,并给出了指标(裂缝宽度误差 0.05mm、定位误差 <10cm、检出率 >90%),核心技术包括:
  • 点线特征融合 SLAM(角点追踪 KLT 光流 + LSD 线段特征)
  • 面向裂缝的旋转框多分支检测模型与几何距离感知损失 (ai.szu.edu.cn)
    这条线对外展示的是“机器人平台 + 视觉检测 + 定位建图”的强工程能力。
  1. 李坚强个人主页列出的“机器人/具身相关代表论文”(更学术化的机器人算法线)
    在李坚强主页的“已发表的部分论文”里,直接可见多篇与机器人导航/定位/环境建模相关的论文(这里挑与你主题最相关的):
  • A Hybrid Path Planning Method in UAV/UGV Cooperative Systems(IEEE TVT 2016):空地协同路径规划。(ai.szu.edu.cn)
  • A Memetic Path Planning Algorithm for UAV/UGV Cooperative Detection Systems(IEEE TASE 2021):面向协同探测的路径规划算法。(ai.szu.edu.cn)
  • Global Visual and Semantic Observations for Outdoor Robot Localization(IEEE TNSE 2020):融合视觉/语义观测的室外机器人定位(“视觉+语义”也可与 VLM 能力嫁接)。(ai.szu.edu.cn)
  • Diversity-Sensitive GAN for Terrain Mapping…(IEEE TCYB 2020):地形建图/映射(可视为机器人环境建模能力)。(ai.szu.edu.cn)

3) 他们“目前在做什么”的一页式总结(你写竞对分析可直接用)

(1)方向版图: 以“具身智能与机器人研究所”为组织载体,公开方向覆盖 多模态感知→认知推理→自适应决策→控制/协作→交互→可信 的全栈。(ai.szu.edu.cn)

(2)VLM 相关: 公开最明确的是 医学影像→文本报告 的“伶荔医”(多模态医疗诊断/预后)。(ai.szu.edu.cn)

(3)VLA/具身学习相关: Video2Reward 把“视频示例行为”转为可优化 reward,用 LLM 做可控的行为学习目标生成与迭代改进(非常贴近“从感知语义到动作学习”的关键瓶颈:目标/奖励定义)。(arXiv)

(4)机器人系统落地: 核电缺陷检测机器人(SLAM + 裂缝检测)体现其“重工业场景机器人化+视觉检测”的工程能力与指标牵引。(ai.szu.edu.cn)


4) 你申报书里可用的“竞对特征点”(简短、好写进材料)

  • 强项
    • 具身智能研究方向覆盖面广(感知-决策-交互-可信-应用),且有工程化落地案例与指标(核电检测机器人)。(ai.szu.edu.cn)
    • 在“视觉/视频 + LLM”用于具身学习目标构建(reward)方面有公开论文线索(Video2Reward)。(arXiv)
  • 可能的空档(基于公开材料的保守判断)
    • 目前公开资料里,“端到端 VLA 基座模型(VLM→Action 的统一大模型)”作为明确论文/系统品牌的证据不多;更突出的是“奖励/训练范式”“行业机器人系统”。(这点建议你在申报书里把“差异化技术路线”写清楚:例如你们做统一 VLA policy、数据闭环、可泛化操作等。)

如果你愿意,我也可以把上面的内容进一步整理成**“申报书可直接粘贴的竞对分析段落”**(含:技术路线对比表、差异化创新点、风险与对策),并按你项目的具体方向(比如:通用机器人操作/医疗 VLM/具身大模型平台)去“对齐措辞”。

このQ&Aを共有