请你理解论文,标题如果修改为“融合多阶段专家知识与多思维链的实时对抗策略生成方法”,请你告诉我具体可...

创建于:2025年4月14日

使用 O1 回答 Chat01

问题

请你理解论文,标题如果修改为“融合多阶段专家知识与多思维链的实时对抗策略生成方法”,请你告诉我具体可以修改什么地方?一一详细告诉我
融合多阶段专家策略与多思维链的实时对抗策略生成方法
倪娅男1,齐润楠1,黄魁华1 ,李宗原2,梁星星1
(1.国防科技大学 系统工程学院 大数据决策实验室, 湖南长沙410073;2.南开大学 人工智能学院, 中国天津 300071)
摘要: 基于态势感知的智能体精细行动控制策略快速生成是当前博弈对抗领域中的关键挑战。尽管大语言模型在博弈对抗中的应用取得了显著进展,但在决策中仍面临决策准确度和精细度不足的问题。为提升大语言模型在此领域的推理决策能力,提出了融合多阶段专家策略与多思维链的实时对抗策略生成方法。通过融合实时画面(图像)与观察信息(文本)为大语言模型提供更全面的态势信息,并嵌入分时专家知识与多思维链推理,从而大幅提升智能体控制与决策精度。在《星际争霸II》“高难度等级”典型对抗场景中进行了实验验证,取得95%胜率,验证了其精细化行动控制效果,为大语言模型在强对抗场景下行动策略生成研究提供了有力思路。
关键词:星际争霸II;大语言模型;专家策略;多思维链推理;精细化控制
中图分类号:TP18 文献标志码:A文章编号:
Real-Time Adversarial Strategy Generation Integrating Multi-Stage Expert Policies and Multi-Chain-of-Thought Reasoning
NI Ya nan1,QI Run nan1,HUANG Kui hua1,LI Zong yuan2,LIANG Xing xing1
(1. Laboratory for Big Data and Decision, College of Systems Engineering, National University of Defense Technology, Changsha, China, 410073; 2. College of Artificial Intelligence, Nankai University, Tianjing, China, 300071)
Abstract: The rapid generation of fine-grained action control strategies based on situational awareness remains a key challenge in adversarial games. Although significant progress has been achieved in applying large language models to adversarial scenarios, issues of decision accuracy and granularity persist. In order to enhance the reasoning and decision-making capabilities of large language models in this domain, a real-time adversarial strategy generation method integrating multi-stage expert strategies and multi-chain-of-thought reasoning was proposed. By merging real-time images (visual data) and observational information (text), more comprehensive situational awareness was provided to the model, while time-segmented expert knowledge and multi-chain-of-thought reasoning were embedded to significantly improve agent control and decision precision. Experiments were conducted in a “high-difficulty level” StarCraft II adversarial scenario, resulting in a 95% win rate and validating the effectiveness of fine-grained action control. These findings offer valuable insights for action strategy generation in highly competitive contexts using large language models.
Keywords: StarCraftII; large language model; expert strategy; multi-chain-of-thought reasoning; fine-grained control
《星际争霸II》(StarCraft II, SC2)是一款具有丰富战术深度与高速动态环境的即时战略游戏(Real-Time Strategy, RTS),是多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)、行动策略规划与博弈对抗等前沿研究的典型平台[1]。早期工作AlphaStar已在SC2中取得了接近顶尖人类玩家的水平,证明了该平台在研究高复杂度对抗方法方面的价值。
近年来,人工智能领域经历了大语言模型(Large Language Models, LLMs)的技术范式变革,以ChatGPT[2]、LLaMA[3]为代表的LLMs相继涌现,GPT-4[4]、GPT-4o[5]等多模态模型也不断突破现有水平。研究者开始将LLMs应用于复杂RTS环境中以获得灵活且可解释的决策支持。它们在解读高维度游戏信息、多回合对抗与战术推理等方面展现出独特优势,一些工作如TextStarCraftII[6],已在《星际争霸II》高难度模式下取得初步成功。然而,现有LLMs大多聚焦宏观指挥,难以处理SC2中对单位走位、地形利用、攻击优先级等精细操作的需求[7-9]。在本研究中,“智能体”(agent)指由大语言模型驱动的AI决策主体,主要负责感知环境并输出指令;“单位”(unit)则是SC2中的具体兵种或作战实体,执行精细化行动控制。
为了强化LLMs在强对抗环境中精细化行动控制决策的能力,本文基于大语言模型《星际争霸II》学习环境(the Large Language Model StarCraft II Learning Environment, LLM-PySC2)提出了融合多阶段专家策略与多思维链的实时对抗策略生成方法(Real-Time Adversarial Strategy Generation Integrating Multi-Stage Expert Policies and Multi-Chain-of-Thought Reasoning, AME-MCoT)。方法结合分阶段的专家战术知识与多思维链推理,并采用多模态输入(图像与文本)为模型提供更全面的场景态势感知,从而有效提升决策精度与鲁棒性。为验证方法的实际效能,构建了SC2的高难度对抗场景——“1巨像对32小狗”(1 Colossus Vs 32 Zerglings),该场景包含高低地形、狭窄路径及可通行的悬崖等多重挑战。在对专家知识模块与多思维链推理模块分别进行消融实验后发现,去除任一模块都会显著降低胜率,而完整融合的AME-MCoT方法依然能够保持95%的高胜率,充分说明本方法对图像与文本信息融合的优势,也验证了其在高动态RTS对抗中的可行性与可靠性。
本文的主要贡献包括:①提出融合多阶段专家策略与多思维链推理的实时对抗策略生成方法,大幅提升LLMs在精细控制场景的决策能力;②设计了基于图像与文本多模态输入的高效提示词机制,弥补了传统LLMs在智能体精细化行动控制决策方面的不足;③构建高难度对抗场景及消融实验,验证了本方法在提高胜率与决策精度上的显著优势。
论文结构如下:第一节介绍相关工作;第二节阐述AME-MCoT方法和策略提示词生成;第三节为实验设置;第四节是实验结果与分析;第五节总结全文并讨论未来工作。
1相关工作
1.1 LLMs在RTS游戏领域的应用进展
随着LLMs在语言理解、推理和泛化等方面的迅猛发展[10-12],其在RTS游戏中的应用也日益受到关注。以《星际争霸II》(StarCraft II, SC2)为例,早期的主流研究多基于强化学习(Reinforcement Learning, RL)方法,如AlphaStar[1]在大规模数据训练下达到了接近人类顶尖选手的水平。但由于RL对训练资源和环境交互需求庞大,其泛化能力和部署效率依然存在局限。为克服此问题,研究者开始探索利用LLMs进行决策生成与对抗控制,TextStarCraft II[6]首次将LLMs应用于SC2的宏观指挥,却仍难以实现单位级别的精细化操作;SwarmBrain采用宏观依赖LLMs、微观依赖ReflexNet的混合模式,但视觉信息融合不足,导致在高动态博弈中缺少精确控制力;LLM-PySC2[8]基PySC2[9]提供了多模态观测与较丰富的动作空间,却在提示词设计上尚不完善,难以充分发挥图像与文本信息融合的潜力。与此同时,Cradle项目将GPT-4V的视觉识别与文本分析应用于《荒野大镖客2》,在多模态感知和剧情探索方面取得进展[13];而在《宝可梦对战》《国际象棋》《扑克》等对抗场景中,LLMs也逐步展现出一定的博弈规划能力[16-18]。这些探索印证了LLMs在RTS及其他复杂游戏领域的可能性,但也暴露出多模态信息利用与精细化微操作方面仍待深入突破。
1.2 LLMs在游戏策略生成中的关键技术应用
早期研究主要集中于纯文本或命令行式的游戏交互,如《狼人杀(Werewolf)》或《阿瓦隆(Avalon)》中,模型通过对玩家对话语义解析辅助身份判断与策略制定[14][15]。同时,《宝可梦对战》,《国际象棋》以及《扑克》等竞争游戏也依赖文本指令实现招式或走法规划[16-18]。在一些纯文本场景中,LLM既可进行推理,也能作为辅助决策工具,例如将图形界面转写为文本的扫雷,用于考察其多步逻辑推断能力[19];以及在《我的世界》中,利用LLM进行层次化推理、文本知识检索与记忆,实现资源收集等任务[20]。这些研究既展示了LLM在对话、推理与执行层面的潜力,也暴露出其在长程策略和逻辑一致性上的不足,尤其在环境状态复杂的游戏中常出现重复控制或错误推理问题。
为应对复杂场景中的感知与决策需求,研究者逐步探索文本、图像、音频等多模态信息融合应用。在动作角色扮演游戏《黑神话:悟空》中[21],提出了视觉-动作角色扮演(Vision-Action Role-Playing, VARP)智能体框架,该框架通过解析游戏截图与界面文本信息,大幅提升简单和中等难度战斗的成功率。类似地,在RTS游戏SC2中,LLM-PySC2系统结合场景可视化与文字描述(如场景说明、兵种属性),使LLMs更全面理解场景态势并制定策略[8];而Cradle项目则将GPT-4V的视觉识别与文本分析应用于《荒野大镖客2》,通过图像解析与语言指令配合驱动角色完成探索与剧情推进[13]。多模态技术的结合不仅拓宽了LLMs智能体的感知-决策链条,也为后续研究如何走向通用人工智能提供了思路。

图 1 融合多阶段专家策略与多思维链的实时对抗策略生成方法框架
Fig. 1 A Real-Time Framework for Adversarial Strategy Generation Integrating Multi-Stage Expert Policies and Multi-Chain-of-Thought Reasoning

1.3面向LLMs驱动复杂任务中的增强技术:专家策略与思维链
在RTS游戏和军事规划等高复杂度决策任务中,将专家知识融入大语言模型提示词已显著提升决策质量与效率[22][25]。一方面,专家知识帮助模型更准确地理解关键游戏机制与任务约束(如资源管理、战术时序或军事条令)[23];另一方面,在提示词中嵌入丰富的专家指令可有效遏制模型在“大搜索空间”内的无效探索[24]。例如,作战方案生成预训练变换模型(Course of Action Generative Pre-trained Transformer, COA-GPT),通过在提示词中整合军事条令与领域知识,引导LLMs在数秒内生成多个符合军事规范的作战方案,并可根据指挥官反馈快速优化[23];而Prompt Agent在迭代提示优化过程中不断吸收并精炼专家指令,从而生成更专业的决策输出[24]。此外,在SC2等RTS环境中,通过引入分层专家知识(Hierarchical Expert Prompt, HEP)方法,对资源调度和单位编队等关键决策实现了策略效果的提升,首次在TextStarCraftII[6]的环境下战胜了精英级别的内置AI[25]。综上,在提示词中合理嵌入专家知识不仅为LLMs提供了专业视角,也显著提升了其在复杂博弈和高风险情境下的决策稳定性与可控性。
思维链(Chain of Thought, CoT)则是另一种能提升多步推理与策略规划能力的强化手段。早期研究表明,在提示中显式提供推理步骤可明显增强LLM在算术、常识与符号推理方面的表现[26];自洽性思维链(Self-consistency CoT)通过并行生成多条推理链后投票,也进一步提高了复杂问题的正确率[27]。树状思维链(Tree of Thoughts, ToT)可在推理过程中探索多条候选路径、进行前瞻与回溯式决策,显著改善模型在多轮迭代推敲或探索性强任务中的适应能力[28]。为克服单一文本推理的局限,Zhang等人[29]提出多模态思维链(Multimodal-CoT),结合视觉与文本信息提升了模型在视觉问答与科学推理场景下的准确度;Chu等人[30]则从理论角度探讨了思维链在提示构建、结构拓展及推理优化中的作用,并强调其在复杂推理任务中的计算优势。Gallotta等人[12]在回顾LLMs与游戏研究时指出,思维链在RTS这类高复杂度游戏中具有显著潜力,可为实时推理和决策提供更丰富的思考路径。
COT已从线性推理延展到自洽性、树状结构及多模态融合等多种变体,在算术计算、常识问答等任务中展现出较高的性能与可解释性。然而,在以SC2精细化操作为代表的高实时、高强度对抗场景中,单纯依赖单思维链或专家知识常难以兼顾多角度推理与动态战术切换。基于此,本文进一步探索将多思维链与多阶段专家策略相结合,充分利用多模态态势感知,以提升LLMs在复杂RTS环境中的实时决策能力与精细化控制效果。
2方法
如图 1所示,本节首先给出AME-MCoT方法的总体架构与主要模块,包括多阶段专家策略和多思维链推理,并阐述提示词生成机制及其在LLM-PySC2环境中的交互流程。
2.1总体架构概览
如图 1所示,AME-MCoT框架,其包含的三个关键组成部分,即系统提示、示例输入提示与示例输出提示,以在SC2的复杂战斗场景中实现精细化的单位精细化控制。该框架通过将多模态输入(游戏画面与文本信息)与多思维链推理以及专家知识相结合,引导LLMs在多维度信息交互下产出更高精度的策略决策。其核心思想在于,以示例输入提示提供示例视觉与示例文本描述,随后以系统提示融入专家多阶段策略与多思维链推理指令,最后通过示例输出提示给出决策过程与执行示例方案,从而让模型理解逐步细化并评估决策的路径,在对抗性极强的SC2环境中生成可解释且高效的精细化控制指令。
2.2专家多阶段策略
为应对SC2精细化控制中实时战场变化的挑战,提出了一种分时段的专家多阶段策略。该策略在提示词中直接嵌入针对“1巨像对32小狗”场景的专家经验,为LLM提供阶段性战术指导,使其根据战场时间自动调整作战策略。具体而言,将战局划分为早期(0–6秒)、中期(6–20秒)和后期(>20秒),具体内容如下图。

图 2 多阶段专家策略内容
Fig. 2 Expert Multi-Stage Strategies Content
2.3多思维链推理决策
为克服单一链式推理在复杂战斗局势中思考风格单一、易陷入局部最优的问题,本方法引入多思维链推理决策模块。具体而言,鼓励LLM并行生成“激进”“保守”和“平衡”三条不同作战倾向的思维链,各自从不同角度评估环境状态、单位分布、武器冷却与地形因素,并给出行动建议。随后,大语言模型对各链输出进行自评,选取最优方案。为确保决策的一致性,提示词中预设了六步流程:环境检查、危险评估、武器冷却检测、决定移动或攻击、选择移动方向与攻击目标,以及最终行动组合(如<Move_Screen([x,y])>、<Attack_Unit(tag)>)。该模块能显著提高决策的鲁棒性与准确度。
2.4策略提示词生成
在SC2中充分发挥AME-MCoT方法在LLMs驱动的精细化控制决策中的潜力,需要将画面截图、单位状态以及专家知识等多模态信息构建成统一提示(Prompt)。提示词划分为三部分:、系统提示、示例输入以及示例输出。它们结合实时输入信息后,生成最终的多模态提示词与LLM-PySC2环境进行交互,每秒调用一次LLM完成决策。
2.4.1提示词结构
示例输入由示例图的Base64图像编码与文本观测(包括时间、单位状态、武器冷却、坐标等)拼接而成,并嵌入必要的辅助字段,如合法动作(ValidActions)、上一步动作(LastStepActions),以便LLM可理解<Move_Screen([x,y])>这类精细化行动操作的命令。
系统提示概括了“背景与目标”“思维链指令”“专家策略”等五方面信息,以system角色注入模型,确保其遵循多阶段策略和多思维链推理。
示例输出示范了多思维链分析与最终行动的生成方式,包括模型自评过程及<Actions>列表,帮助LLM学习逐步推理思路。
2.4.2最终多模态提示生成
在最终多模态提示生成阶段,将示例输入、系统提示、示例输出以及实时对局数据整合,构造出供LLM推理的完整消息序列。实时数据包括游戏截图(Base64编码)和最新文本观测信息(反映当前局势)。算法 1展示了整合过程:不同信息以system/user/assistant角色注入,从而使LLM能准确区分和利用各类数据。
算法 1 融合专家多阶段策略与多思维链推理的
多模态提示生成
Alg. 1 Multimodal Prompt Generation Combining Expert Multi-Stage Strategies and Multi-Chain-of-Thought Reasoning
输入:ot:文本观测(单位,资源,时间等);spr:系统提示;pIn:示例输人;po:示例输出(预期指令格式);img:实时游戏画面截图(Base64编码)
输出:MsgSeq: 用于LLM推理的多模态消息序列
Function SC2_PROMPT(ot, spr, pIn, po, img)
MsgSeq←∅
MsgSeq.append(spr, role=“system”)
MsgSeq.append(pIn, role=“user”)
MsgSeq.append(po, role=“assistant”)
MsgSeq.append(img, role=“user”)
MsgSeq.append(ot, role=“user”)
Return MsgSeq
end Function
2.5 环境交互流程
在LLM-PySC2环境中,AME-MCoT方法每秒循环一次:若已超过1秒时长,则根据最新帧信息构造多模态提示并调用LLM生成动作;若不足1秒则继续执行上一动作。调用返回的<Attack_Unit(tag)>或<Move_Screen([x,y])>等指令通过Env.step(actions)提交给PySC2执行。如此反复直至对局结束,便可在实时对抗场景中完成基于多思维链和专家策略的精细化控制。
通过上述流程与环境的交互机制,AME-MCoT能够将视觉、文本和专家经验有效注入大语言模型,实现对SC2高动态环境中单位微操作和战术决策的实时融合。
3实验设置
3.1实验环境
本研究全部实验运行于团队自主研发的LLM‑PySC2 环境[8]。该环境基于DeepMind开发的PySC2(Python StarCraft II Learning Environment, PySC2)库,扩展了完整动作空间与多模态观测接口,能够每秒截取一帧 RGB 游戏画面并叠加256 × 256 的屏幕坐标网格(刻度 0‑256,每 32 像素 一条辅助线),同时提供结构化文本观察(单位状态、武器冷却、可用动作等)。在系统示例输入中明确规定,当大语言模型需要让单位移动或攻击屏幕坐标 (x, y) 时,可直接生成 <Move_Screen([x,y])> 或 <Attack_Unit(tag)> 这类指令;环境随后把文本解析为 PySC2 函数并执行,实现无缝的“观察—输出—执行”闭环。多模态推理由 GPT‑4o 应用程序接口(Application Programming Interface, API)完成,它一次性接收游戏画面与文本观测,返回包含分析、多思维链推理与最终动作的响应,从而支撑单位精细化控制,如图 3所示。

图 3 单位坐标精细化控制示例图
Fig. 3 Example of Coordinate-Based Micro-Control
为了充分考察AME-MCoT方法在高动态 RTS 环境下的时间与空间控制能力,并验证单位精细化对抗策略的有效性,在星际争霸 II 中定制了一个高难度作战场景——“1 巨像对 32 小狗”场景,如图 4所示。其中,巨像是一种火力强大且具有远程攻击能力的单位,小狗则为数量众多、近战突进能力突出的低阶兵种。此设定首先营造了不对称对抗环境:巨像要借助射程与地形优势,不断变换位置并运用“风筝”与“迂回”战术,才能抵御数量庞大的近战围攻。

图 4 高低地战斗场景图
Fig. 4 StarCraft II Battle Scene Featuring High-Ground and Low-Ground Terrain
场景中的高低差悬崖与狭窄通道相互交织,既提高了移动与站位的难度,也对远程输出的时机选择提出了更高要求,进而在多模态信息(图像态势与文本描述)融合下对时间与空间决策能力进行了充分考验。若巨像能在生命值有限的条件下完成对 32 小狗的击杀,既可佐证融入专家多阶段策略与多思维链推理后LLM对精细化控制的提升,也能从路径选择、攻击节奏与持续作战等多个方面检验方法的综合表现。
3.2评测指标构建
为了系统评估所提出的AME-MCoT方法在SC2精细化控制决策中的性能,设计了一套多维评测指标。这些指标旨在全面刻画模型在胜负结果、战斗效率、生存能力以及资源利用等方面的表现,同时充分考虑RTS游戏精细化控制场景的动态性和复杂性以下详细阐述各指标的定义、计算方法及其意义。
胜率(Win Rate,W)是衡量模型整体表现的核心指标,表示在所有对局中获胜的比例。其计算公式如下
█(W=N_win/N_total ×100%#(1) )
其中,N_"win" 为胜利局数,N_"total" 为总对局数。胜率直观反映了模型在给定场景下的决策可靠性,是后续分析的基础。与胜率相辅相成的还有平均消灭敌人数(Average Kills per Game,E_"avg" ),用于衡量模型每局平均消灭的敌方单位数量,其计算公式为:
█(E_avg=(∑(i=1)^(N"uat" )▒  E_i)/N_"total" #(2) )
其中E_i表示第i局消灭的敌方单位数。该指标突出模型的攻击效率,尤其在精细化控制中体现其对敌方单位的压制能力。
为进一步分析模型在不同对局结果中的作战效率,引人胜利平均时间(Average Victory Time,T_win)和失败平均时间(Average Failure Time,T_"bse" )。胜利平均时间定义为获胜对局的平均持续时间:
█(T_win=(∑(i=1)^(N_min)▒  T_i^win)/N_win #(3) )
其中T_i^"win" 表示第i局获胜时的持续时间。相对应地,失败平均时间衡量失败对局的平均持续时间:
█(T_lose=(∑
(i=1)^(N_"wee" )▒  T_i^bse)/N_lose #(4) )
其中T_i^"lose" 为第i局失败时的持续时间,N_"lose" 为失败局数。较短的T_"win" 表示模型在获胜时能更快完成任务,而较高的T_"lose" 则反映模型在劣势局面下仍具有一定持久作战能力。生存能力是精细化控制决策的重要维度,为此设计了胜利对局平均健康值剩余比例(Average Health Ratio in Wins,H_"win" ),计算公式为
█(H_win=(∑(i=1)^(N_win)▒  H_i)/N_win #(5) )
其中H_i表示第i局获胜时关键单位的剩余健康比例。较高的H_win表明模型在获胜时能有效保护关键单位,体现了其自我保护能力。
与此同时,为评估模型在失败对局中的攻击表现,定义了失败对局平均消灭敌人数(Average Kill Losses,E
"lose" ),其计算公式为
█(E_"lose" =(∑(i=1)^(N"lose" )▒  E_i^"lose" )/N_"lose" #(6) )
其中E_i^"lose" 表示第i局失败时消灭的敌方单位数。最后,为综合衡量模型的杀伤效率与生存能力,引人了战损比(Kill-to-Loss Ratio,KLR),其计算公式如下所示:
█(KLR=(∑(i=1)^(N"toal" )▒  E_i)/N_"colossus_lost" #(7) )
其中N_"colossus_lost" 表示在所有对局中关键单位(“巨像”)的损失次数。较高的KLR表明模型在较低损失下实现了更高的战斗输出,适用于评估精细化控制场景中单位控制与战术选择的平衡性。
综上,上述指标共同构成了一个全面的评测框架,不仅覆盖了对局胜负的基本统计,还深入 量化了模型在决策效率,战斗效能和生存能力上的表现。通过这些指标,能够系统分析AME-MCoT方法在SC2复杂精细化控制任务中的优劣,为后续实验结果的解读和方法改进提供科学依据。
4实验结果与分析
4.1完整方法与消融实验结果
为评估所提AME‑MCoT 方法在高难度精细化控制场景下的综合表现,在自定义场景“1 巨像 vs. 32 小狗”环境中依托GPT4o API进行了20组对战测试。该环境具有高低地形、狭窄通路等要素,能够充分考察单位拉扯、空间定位与时间分段决策等方面的综合能力。共设计了四种实验配置并各自进行 20 局对战,分别为:
①完整方法:综合引入了分阶段专家策略与多思维链推理两大核心模块。
②单思维链:在保留专家策略与多模态提示词的前提下,仅采用单链推理;取消多思维链生成与自评。
③消融多思维链:完全不使用思维链推理,仅依靠专家提示和多模态信息进行单步决策。
④消融专家知识:保留多思维链和多模态提示词,但去除了分阶段专家策略的指引。
从表 1可见,完整方法在 20 局中取得 19 胜 1 负,胜率高达 95%,单局平均击杀 31.45,显著优于其他消融配置。尤其值得注意的是,完整方法下的战损比高达 629,远超其余三组,对比最差的“消融多思维链”方案(KLR仅 18.32)可见两者在持续战斗与压制敌方单位上的差距极大。这说明,当多模态提示词与分阶段专家策略相结合,并通过多思维链推理时,模型不仅能更好地识别关键局势,还能随时调整攻击与防御风

表 1 不同实验设置下的主要对战结果
Tab 1. Main Battle Results Under Different Experimental Settings

设置 Tot. W L W(%) E_avg T_win T_lose E_lose H_win KLR
单思维链 20 11 9 55 26.1 39.82 24 18.89 0.33 58
消融多思维链 20 1 19 5 17.4 14 12.79 16.63 0.0771 18.32
消融专家知识 20 11 9 55 26.4 50.91 40 19.56 0.2642 58.67
完整方法 20 19 1 95 31.45 38 39 21 0.3211 629

格,从而在高动态环境中兼顾输出与生存。
“单思维链”与“消融专家知识”这两种配置的胜率均只有 55%,虽比消融多思维链的版本要高,但仍与完整方法的 95% 存在显著差距,如果完全缺失思维链(消融多思维链)的思考,胜率进一步跌至5%。这部分对比结果表明,多思维链与多阶段的专家策略的结合对于高强度精细化决策而言各有不可替代的价值:前者在瞬息万变的战斗局面中可进行多角度思考,而后者为特定时间段的战术转换提供了具有领域先验的精确指引。若缺失其中一环,则容易出现对局中的 “盲目输出”,无法实现专家策略意图,导致整体博弈对抗表现显著下滑。
在系统资源消耗方面,如表 2所示,消融多思维链的配置调用次数最低(约12.85次/局),输入与输出Token数也最少;但对应的对抗表现极为低下,难以应对高速变化的战局。完整方法虽调用次数和Token消耗略高,却能取得极佳的胜率和生存能力,证明了在高难度精细化控制任务中,额外的推理投入能够显著提升决策质量。
表 2 不同实验设置下的系统资源消耗统计
Table 2 System Resource Consumption Statistics Under Different Experimental Settings
实验设置 调用
(次/局) 输入令牌
(次均) 输出令牌(次均)
单思维链 32.6 3225 403
消融多思维链 12.85 2644 329
消融专家知识 44.9 3778 886
完整方法 38.0 3847 861
4.2最优对局细节分析
为进一步展示完整方法在最优对局(1巨像vs.32小狗)中的动态生存与杀敌表现,本研究记录了最佳对局从开局至29秒内巨像的关键状态数据,包括总健康值、护盾值、生命值以及累计杀敌数。根据分阶段专家策略,将对局划分为早期(1~5秒)、中期(6~20秒)和后期(21~29秒),并在图 5和图 6中直观显示了巨像的健康值曲线与累计杀敌数的增长趋势。

图 5 最优对局血量、护盾、生命值随时间变化
Fig. 5 Time-Series of Health, Shield, and HP in the Best-Performing Match

图 6 最优对局累计杀敌数随时间变化
Fig. 6 Cumulative Kill Count Over Time in the Best-Performing Match
早期(1~5秒):巨像初始总健康值为350(护盾100、生命250),基本处于满格状态;累计杀敌数由2增至6。此时通过“向右侧规避左侧狗群”的机动策略,兼顾了输出与生存。
中期(6~20秒):对抗压力加大,总健康值逐步下降至约202;护盾几乎消耗殆尽,但生命值仍保持在200左右;与此同时,累计杀敌数稳
表 3 不同实验配置的综合评分计算结果
Tab 3. Comprehensive Score Calculation Results for the Different Experimental Configurations

组别 平均击杀 平均时长 (s) 平均健康值 Knorm Tnorm Hnorm 综合评分
仅保留单思维链 26.10 32.70 63.25 0.619 0.401 0.585 0.543
去掉多思维链 17.40 12.85 1.35 0.000 1.000 0.000 0.300
消融专家知识 26.40 46.00 50.85 0.640 0.000 0.467 0.396
完整方法 31.45 36.95 107.20 1.000 0.273 1.000 0.782

步上涨,说明系统在保持生存的同时依然能维持较高的输出节奏。
后期(21~29秒):血量在197~202之间小幅波动,至29秒时击杀数达到32,实现彻底歼灭敌方小狗。此阶段体现了“先保命后输出”的风筝战术,使巨像在剩余约60%生命值的情况下仍然完成了全歼目标的任务。
4.3总体性能比较
为进一步综合评估各配置整体性能,在对抗表现与资源消耗之外,引人了"综合评分"指标,用以统一衡量击杀效率(单位时间内的击杀数),对局时长和单位健康值三大要索。综合评分定义如下:
█(Score=0.4×K_"norm" +0.3×T_"norm" +0.3×H_"norm" #(8) )
其中,K_"norm" ,T_"norm" 以及H_"norm" 分别表示击杀数,对局时长和单位健康值的归一化结果。对于"击杀数"(Kills)和"平均健康值"(Health)这类"越大越好"的指标,采用Min-Max归一化公式:
█(X_norm=(X-X_min)/(X_max-X_min )#(9) )
而对于"对局时长"(Time)这类"越短越好"的指标,则在归一化后取补值,即:
█(T_norm=1-("Time" -T_min)/(T_max-T_min )#(10) )
本研究基于四组实验配置的统计结果,确定了(K_min,K_max )=(17.40,31.45),(T_min,T_max )=(12.85,46.00)以及(H_min,H_max )=(1.35,107.20)作为归一化区间。鉴于"消灭敌人"和"单位生存"在高强度精细化控制场景下均至关重要,将击杀数的权重设为40%,健康值和对局时长各占30%,从而兼顾输出效率与战局速率。表 3汇总了各组实验配置的关键指标,归一化结果及最终综合评分。
由表 3可见,完整方法在击杀,对局时长与单位健康值三项指标上均取得了较好平衡,综合评分为0.782,明显优于其他消融配置。对比而言,去掉多思维链实验虽在时长上极短,但击杀与健康值过低导致评分仅0.300;单思维链与消融专家知识时难以兼顾高击杀与高生存,评分分别降至0.543和0.396。
4.4讨论
在对抗指标(胜率、击杀数、健康值与战损比)方面,完整方法展现出显著优势,虽推理调用与Token消耗相对更高,却大幅提升了整体决策质量。根据综合评分分析,“多模态信息+分阶段专家策略+多思维链推理”的组合在击杀效率、对局时长和单位生存三大维度实现了优良平衡,具有在更复杂RTS环境中进一步推广的潜力。从最优对局细节亦可看出,完整方法在早、中、后期均能灵活运用场景与单位特性,并最终取得95%胜率与629战损比,充分彰显其在高强度精细化控制任务中的可行性与有效性。
然而,AME-MCoT方法也面临提示词编写成本高、推理速度潜在瓶颈等局限。若应用于更大规模多智能体对抗或更高速率的对战场景,需要进一步优化提示词结构及模型调用效率。与纯RL或传统脚本AI相比,本方法无需大量训练数据,即可依赖少量专家知识完成复杂精细化控制决策,且具备较强的可解释性。后续可尝试自动化专家策略抽取与自适应提示词生成,以降低人工编写成本,并提升在多人对战、混编兵种以及不同对抗场景下的鲁棒性。
5结论与未来工作
5.1研究总结
研究针对LLMs在SC2精细化控制决策领域的局限性,提出了融合多模态输入(图像与文本)、分阶段专家策略与多思维链推理的实时对抗策略生成方法。实验结果显示,该方法在SC2的高难度复杂地形场景中达到95%的高胜率,显著优于其他消融配置。具体而言,AME-MCoT充分利用了多模态信息以强化战场态势感知,在提示词中嵌入分阶段专家知识,为关键时刻的战术切换提供领域先验,并通过多思维链并行探索不同决策思路,在瞬息万变的战斗环境中生成更具鲁棒性和灵活度的行动方案。实验结果显示,该方法在击杀效率与单位生存之间取得了良好平衡,可以有效发挥兵种特性与地形优势。与传统RL方法相比,AME-MCoT无需大量训练数据即可快速部署,且提示词的可解释性便于研究者理解和迭代优化决策过程。
综上,AME-MCoT方法为在即时战略游戏中引入大语言模型提供了新思路,对进一步拓展多模态、多思维链的高阶对抗决策研究具有重要参考价值。
5.2未来展望
尽管本研究在高难度精细化控制场景中展现了LLMs的潜力与灵活性,仍有诸多值得进一步探索的方向。首先,可将分阶段专家策略与多思维链推理推广至多单位协同的情境,从而考验模型在更复杂战术协调和资源调度方面的能力。而且,借助自动化知识抽取或数据挖掘方法,可降低提示词编写的人工开销,让模型自适应地学习并更新专家策略。在大规模多单位对抗、职业选手级别的控制强度下,态势感知的高质量快速反应以及图像信息的有效利用和理解仍是瓶颈,需要在模型使用与环境框架上做更深入的优化。最后,通过将本方法与RL等机制结合,构建出混合式或自适应式的多智能体决策系统,或可进一步提升其在多种游戏类型(如多人在线战术竞技游戏、开放世界游戏)中的通用性与竞争力。
参考文献
VINYALS O, BABUSCHKIN I, CZARNECKI WM, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.
OPENAI. ChatGPT: optimizing language models for dialogue[EB/OL]. OPENAI, 2022[2025-02-27]. https://openai.com/blog/chatgpt.
TOUVRON H, et al. Llama: Open and efficient foundation language models [EB/OL]. arXiv preprint arXiv:2302.13971, 2023[2025-02-27]. https://arxiv.org/abs/2302.13971.
OPENAI. GPT-4 technical report[EB/OL]. arXiv preprint arXiv:2303.08774, 2023[2025-02-27]. https://arxiv.org/abs/2303.08774.
OPENAI. GPT-4o[EB/OL]. OPENAI, 2024 [2025-02-27].https://openai.com/research/gpt-4o.
MA W, MI Q, ZENG Y, et al. Large language models play starcraft ii: Benchmarks and a chain of summarization approach [J]. Advances in Neural Information Processing Systems, 2025, 37: 133386-133442.
HAO X, JIANG W, ZUO F, et al. SwarmBrain: Embodied agent for real-time strategy game StarCraft II via large language models [EB/OL]. arXiv preprint arXiv:2401.17749, 2024[2025-02-27]. https://arxiv.org/abs/2401.17749.
LI Z, NI Y, QI R, et al. LLM-PySC2: StarCraft II learning environment for large language models[EB/OL]. arXiv preprint arXiv:2411.05348, 2024[2025-02-27]. https://arxiv.org/abs/2411.05348.
VINYALS O, EWALDS T, BARTUNOV S, et al. StarCraft II: a new challenge for reinforcement learning[EB/OL]. arXiv preprint arXiv:1708.04782, 2017[2025-02-27]. https://arxiv.org/abs/1708.04782.
HU S, HUANG T, ILHAN F, et al. A survey on large language model-based game agents[EB/OL]. arXiv preprint arXiv: 2404.02039, 2024[2025-02-27]. https://arxiv.org/abs/2404.02039.
WANG L, MA C, FENG X, et al. A survey on large language model based autonomous agents[J]. Frontiers of Computer Science, 2024, 18(6): 186345.
GALLOTA R, TODD G, ZAMMIT M, et al. Large language models and games: A survey and roadmap [J]. IEEE Transactions on Games, 2024.
TAN W, ZHANG W, XU X, et al. Cradle: Empowering foundation agents towards general computer control[EB/OL]. arXiv preprint arXiv:2403.03186, 2024[2025-02-27]. https://arxiv.org/abs/2403.03186.
XU Y, WANG S, LI P, et al. Exploring large language models for communication games: an empirical study on werewolf[EB/OL]. arXiv preprint arXiv:2309.04658, 2023[2025-02-27]. https://arxiv.org/abs/2309.04658.
LAN Y, HU Z, WANG L, et al. LLM-based agent society investigation: collaboration and confrontation in Avalon gameplay[EB/OL]. arXiv preprint arXiv:2310.14985, 2023[2025-02-27]. https://arxiv.org/abs/2310.14985.
HU S, HUANG T, LIU L. Pokémon: a human-parity agent for pokémon battles with large language models[EB/OL]. arXiv preprint arXiv:2402.01118, 2024[2025-02-27]. https://arxiv.org/abs/2402.01118.
FENG X, LUO Y, WANG Z, et al. ChessGPT: bridging policy learning and language modeling[J]. Advances in Neural Information Processing Systems, 2023, 36: 7216-7262.
HUANG C, CAO Y, WEN Y, et al. PokerGPT: an end-to-end lightweight solver for multi-player texas hold’em via large language model[EB/OL]. arXiv preprint arXiv:2401.06781, 2024[2025-02-27]. https://arxiv.org/abs/2401.06781.
LI Y, WANG H, ZHANG C. Assessing logical puzzle solving in large language models: insights from a minesweeper case study[C]//Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics, 2024: 59-81.
VINYALS O, EWALDS T, BARTUNOV S, et al. Ghost in the minecraft: generally capable agents for open-world environments via large language models[EB/OL]. arXiv preprint arXiv:2305.17144, 2023[2025-02-27]. https://arxiv.org/abs/2305.17144.
CHEN P, BU P, SONG J, et al. Can vlms play action role-playing games? take black myth wukong as a study case[EB/OL]. arXiv preprint arXiv:2409.12889, 2024[2025-02-27]. https://arxiv.org/abs/2409.12889.
VASISHT K, GANESAN B, KUMAR V, et al. Infusing knowledge into large language models with contextual prompts[C]//Proceedings of the 20th International Conference on Natural Language Processing (ICON), 2023: 657-662.
GOECKS VG, WAYTOWICH N. Coa-gpt: generative pre-trained transformers for accelerated course of action development in military operations[C]//2024 International Conference on Military Communication and Information Systems. IEEE, 2024: 01-10.
WANG X, SHEN Y, LI M, et al. PromptAgent: strategic planning with language models enables expert-level prompt optimization[C]//International Conference on Learning Representations (ICLR), 2024.
LI Z, LU C, XU X, et al. Hierarchical expert prompt for large-language-model: an approach defeat elite ai in textstarcraft ii for the first time[EB/OL]. arXiv preprint arXiv:2502.11122, 2025[2025-02-27]. https://arxiv.org/abs/2502.11122.
WEI X, WANG Y, ZOU H, et al. Chain-of-thought prompting elicits reasoning in large language models[C]//NeurIPS, 2022.
WANG P, LI D, WU Q, et al. Self-consistency improves chain of thought reasoning in language models[C]//ICLR, 2023.
YAO S, ZHAO M, YU Z, et al. Tree of thoughts: deliberate problem solving with large language models[EB/OL]. arXiv preprint arXiv:2305.10601, 2023[2025-02-27]. https://arxiv.org/abs/2305.10601.
ZHANG T, CHEN H, LI P, et al. Multimodal chain-of-thought reasoning in language models[J]. TMLR, 2024.
CHU X, LIANG X, YU Y, et al. Navigate through enigmatic labyrinth: a survey of chain of thought reasoning—advances, frontiers and future[C]//ACL, 2024.

思考

Updating the title

I’m working through refining the title by substituting the term "多阶段专家策略" with "多阶段专家知识," ensuring clarity in its meaning.

Updating terminology

I'm thinking through the implications of renaming the method from "多阶段专家策略与多思维链的实时对抗策略生成方法" to "多阶段专家知识与多思维链的实时对抗策略生成方法," considering potential changes to the acronym and short form.

Retaining acronym clarity

I’m weighing keeping the acronym "AME-MCoT" versus "AMEK-MCoT" or "AMK-MCoT." The user specifically intends to rename sections like the title and abstract to "融合多阶段专家知识与多思维链的实时对抗策略生成方法."

Evaluating terminology

I'm considering systematically replacing "专家策略" and "多阶段专家策略" with "多阶段专家知识" to ensure consistency in meaning and avoid confusion.

Ensuring consistent references

I’m methodically updating figure captions and references, consistently replacing "专家策略" with "多阶段专家知识" while preserving the original meaning and avoiding confusion.

Ensuring clarity

I’m ensuring clarity by replacing all references to "专家策略" and "多阶段专家策略" with "专家知识" and "多阶段专家知识," and re-evaluating the method name "AME-MCoT" for potential modifications.

Finalizing the acronym

I’m noting the potential complexity of "AMEK-MCoT" and considering the advantage of keeping the original acronym for simplicity, while also evaluating "AM-EK-CoT" for clarity.

Reasoned about paper title modifications for 17 seconds

回答

下面给出的是将标题从“融合多阶段专家策略与多思维链的实时对抗策略生成方法”修改为“融合多阶段专家知识与多思维链的实时对抗策略生成方法”时,论文中需要相应调整的具体位置与建议修改方式,供参考。请根据实际需要对照全文逐一核对、替换或微调。


1. 题目与作者信息部分

  1. 论文标题

    • 原:

      融合多阶段专家策略与多思维链的实时对抗策略生成方法

    • 改:

      融合多阶段专家知识与多思维链的实时对抗策略生成方法

  2. 英文标题

    • 原:

      Real-Time Adversarial Strategy Generation Integrating Multi-Stage Expert Policies and Multi-Chain-of-Thought Reasoning

    • 建议改:

      Real-Time Adversarial Strategy Generation Integrating Multi-Stage Expert Knowledge and Multi-Chain-of-Thought Reasoning

      其中,“Policies”改为“Knowledge”。如果英文术语更倾向于 “Expert Strategies” 也可考虑改为 “Expert Knowledge/Strategies”,但要和中文保持对应一致。


2. 摘要部分

在摘要中,如果出现“多阶段专家策略”,都需要统一替换为“多阶段专家知识”,其余用词如“专家策略”同理替换为“专家知识”。具体可能出现的修改示例如下(粗体部分为需改动):

  • 原文示例:

    为提升大语言模型在此领域的推理决策能力,提出了融合多阶段专家策略与多思维链的实时对抗策略生成方法。

  • 修改后:

    为提升大语言模型在此领域的推理决策能力,提出了融合多阶段专家知识与多思维链的实时对抗策略生成方法。

  • 英文对应:

    In order to enhance the reasoning and decision-making capabilities of large language models in this domain, a real-time adversarial strategy generation method integrating multi-stage expert knowledge and multi-chain-of-thought reasoning was proposed.


3. 关键词 (Keywords)

如果关键词中出现了“专家策略”或“expert strategy”,同样需要替换为“专家知识”或“expert knowledge”。例如:

  • 原:

    关键词:星际争霸II;大语言模型;专家策略;多思维链推理;精细化控制

  • 改:

    关键词:星际争霸II;大语言模型;专家知识;多思维链推理;精细化控制

  • 英文:

    • 原:

      Keywords: StarCraftII; large language model; expert strategy; multi-chain-of-thought reasoning; fine-grained control

    • 改:

      Keywords: StarCraftII; large language model; expert knowledge; multi-chain-of-thought reasoning; fine-grained control


4. 引言与相关工作

在引言、相关工作或任何出现“多阶段专家策略”“专家策略”之处,都建议替换为“多阶段专家知识”“专家知识”。若个别语境中确实强调的是“专家制定好的具体策略”而并非“知识要点”,可根据实际含义做适度保留。但若论文整体想突出“知识”而非“策略”本身,请统一替换。以下举例:

  • 原:

    然而,现有LLMs大多聚焦宏观指挥,难以处理SC2中对单位走位、地形利用、攻击优先级等精细操作的需求。[…] 提出了融合多阶段专家策略与多思维链的实时对抗策略生成方法…

  • 改:

    然而,现有LLMs大多聚焦宏观指挥,难以处理SC2中对单位走位、地形利用、攻击优先级等精细操作的需求。[…] 提出了融合多阶段专家知识与多思维链的实时对抗策略生成方法…


5. 方法章节

方法部分通常是全文中“专家策略”与“多阶段策略”出现最频繁的地方,请仔细比照逐段修改。

  1. 方法名称

    • 原:

      2 方法
      融合多阶段专家策略与多思维链的实时对抗策略生成方法 (AME-MCoT)

    • 改:

      2 方法
      融合多阶段专家知识与多思维链的实时对抗策略生成方法 (此处英文也请改为 multi-stage expert knowledge)

    若文中有定义该方法的缩写,如“AME-MCoT(Adversarial + Multi-stage Expert + Multi-Chain-of-Thought)”,可选择是否更新成“AMK-MCoT (Adversarial + Multi-stage Knowledge + Multi-Chain-of-Thought)”。如果担心改动缩写会影响后文大量引用,也可保留 AME-MCoT,只在解释时说明 E 代表的是 Expert Knowledge。此处按需要自行决策。

  2. 小节标题

    • 若有小节如“2.2 专家多阶段策略”,可改为“2.2 多阶段专家知识”。
    • 若有图表标题如“图2 多阶段专家策略内容”,可改为“图2 多阶段专家知识内容”等等。
  3. 算法或公式注释

    • 如果算法名称或伪代码里标注了“ExpertPolicy”可改成“ExpertKnowledge”,相应文字处也一并替换。

6. 实验与结果分析

同理,在实验设置、消融实验、结果讨论等部分,凡出现“专家策略”均修改为“专家知识”。例如:

  • 原:

    对比实验设置包括:①完整方法(融合多阶段专家策略与多思维链)[…]

  • 改:

    对比实验设置包括:①完整方法(融合多阶段专家知识与多思维链)[…]

同时,如果实验设计、消融模块中原本就分别以“专家策略”模块和“思维链”模块来区分,也需要统一命名为“专家知识”模块,避免读者混淆。比如“消融专家知识”对比实验,而非“消融专家策略”。


7. 结论与未来展望

在结论部分对全文方法进行总结时,也需要对应修改。例如:

  • 原:

    本文提出了融合多模态输入、分阶段专家策略与多思维链推理的[…]

  • 改:

    本文提出了融合多模态输入、分阶段专家知识与多思维链推理的[…]

英文结论中同理,把“expert strategy/policies”改为“expert knowledge”。


8. 参考文献中的标题或说明

若参考文献列表里引用了您自己先前以“专家策略”为关键词或标题的其他文献,且该文献标题本身确实使用了“策略”,则不需要强行改动引用标题本身(因为引用应与原文题名保持一致)。只需在论文正文表述处加以说明即可。通常参考文献表题名不做修改,以尊重原文献的题名。


9. 关于术语统一与行文风格

  • 若全文除“多阶段专家策略”外,还有“专家策略”“专家先验策略”等多种近似说法,建议根据最终要凸显的概念,统一替换为“专家知识”或“专家领域知识”。
  • 英文中相应地可统一为“expert knowledge”,如果还有“domain knowledge”或“expert-level knowledge”等其他表述,需保持一致的翻译。
  • 如果想强调“多阶段专家知识”不仅仅是知识层面的描述,还包含一定“策略化”的要素,也可以在方法介绍里多加一句解释,例如:

    “本文所称的多阶段专家知识,既包括对关键游戏机制或战术规则的抽象性总结,也包含在不同时间节点做出相应行动指令的策略要领。”


10. 小结

综上所述,**从“多阶段专家策略”改为“多阶段专家知识”**的主要影响包括:

  1. 题目与摘要:保证核心标题及关键词中保持“知识(knowledge)”的表述。
  2. 方法命名:方法章节标题、小节标题、图表标题以及算法伪代码等所有位置的“专家策略”统一替换为“专家知识”。若涉及方法缩写(AME-MCoT)的含义说明,也要保持一致。
  3. 实验设置与结论:同理在实验对比、消融设计和结论分析中,统一词汇表述,避免前后不一致。
  4. 参考文献:除非您自己先前已在引用文献中直接使用了“策略(strategy/policy)”作为标题,否则无需改动引用文献名。

请根据以上提示,对照全文逐段查找“专家策略”或“多阶段专家策略”的出现位置,统一改为“专家知识”或“多阶段专家知识”。对其他用语做相应的英文同步修订,即可完成标题及相关内容的整体替换。


**如有更多针对术语替换、缩写重新命名或行文衔接方面的问题,可随时补充说明。**祝撰写顺利!

分享这个问答