大模型工具调用的常见方式

Создано: 24 апреля 2025 г.

Отвечено с использованием GPT-4o от Chat01

Вопрос

大模型工具调用的常见方式

Ответ

大模型(LLM)调用外部工具的常见方式主要包括以下几种:CSDN Blog


1. 函数调用(Function Calling)

这是当前主流的大模型工具调用方式,已被 OpenAI、ChatGLM3、Claude 等广泛支持。CSDN Blog

核心流程:

  1. 定义函数接口:开发者通过 JSON Schema 格式定义函数名、用途、参数及其描述。
  2. 意图识别:模型接收用户输入后,判断是否需要调用某个函数。
  3. 参数提取:若需要调用,模型从用户输入中提取参数,并生成结构化的 JSON 调用请求。
  4. 执行函数:外部系统接收请求,执行相应函数,并返回结果。
  5. 结果整合:模型将函数返回的结果转化为自然语言回复用户。CSDN Blog

例如,用户询问“10月27日北京天气怎么样”,模型会调用预定义的 get_current_weather 函数,并提取出 location: 北京time: 2021-10-27 作为参数。 CSDN Blog


2. 工具代理框架(如 LangChain、HuggingGPT)

这些框架提供了更高级的工具调用能力,适用于复杂任务的分解与执行。CSDN Blog

  • LangChain:通过 Agents 组件,将用户需求拆分为多个子任务,并调用相应工具完成每个子任务。
  • HuggingGPT:结合多种模型和工具,协调完成复杂任务,如多轮对话、图像生成等。CSDN Blog

3. 多级工具调用策略

当工具数量众多时,直接将所有工具信息传入模型可能导致输入超限。为此,可以采用多级工具调用策略:CSDN Blog

  1. 初步筛选:模型首先根据简要的工具描述选择可能的工具。
  2. 详细匹配:然后再提供选定工具的详细参数信息,模型据此提取具体参数并调用工具。CSDN Blog

这种方式有效减少了模型输入的 token 数量,提升了调用效率。 CSDN Blog


4. 自监督工具学习(如 Toolformer)

Toolformer 是一种自监督学习方法,使模型在训练过程中学习何时以及如何调用工具,无需大量人工标注。CSDN Blog

  • 训练过程:模型在预训练阶段,通过自监督方式学习工具的使用时机和方法。
  • 优势:减少了对人工标注的依赖,提高了模型在实际应用中的灵活性和适应性。 CSDN Blog

应用场景

这些工具调用方式广泛应用于以下场景:CSDN Blog

  • 实时数据查询:如天气、股票、新闻等信息的获取。
  • 企业系统集成:如 CRM、ERP 系统的数据查询与操作。
  • 多轮对话与任务规划:如旅游规划、购物推荐等复杂任务的分解与执行。CSDN Blog

通过上述方式,大模型能够更有效地调用外部工具,扩展其能力边界,提升实际应用价值。CSDN Blog

Вопрос

最近智能体的MCP、APA以及SOP之间都是什么关系,请你检索回答。

Мысль

Citing sources on MCP, APA, and SOP relationships

I’m organizing sources for SOP and its relationship. To support my answer, I need at least 10 diverse citations. These should include articles from Axios, zhihu, and Heidloff’s blog, as well as reports and papers that connect MCP, APA, and SOP. I’ll also include resources like Microsoft and Kognitos blogs, as well as academic papers like “Agent-S” and others from arXiv. Plus, some news from the past week, like the Axios report on MCP. Time to gather these!

Thought for 1m 7s

Ответ

总结(一句话先说清)
在最新的 AI 智能体技术栈里,MCP(Model Context Protocol)负责把大模型安全地接到外部数据和工具,SOP(Standard Operating Procedure)把业务经验写成可执行的流程脚本,而 APA(Agentic Process Automation)则把一群会用 MCP 的智能体按 SOP 去协同、监控和弹性伸缩地运行起来;三者分别处在“连接-知识-编排”三层,既不冲突也不替代,而是像 USB-C、应用脚本和 Kubernetes 这样的上下配合关系。Axios Automation Anywhere arXiv


1. 概念速览

缩写全称关键词作用最新进展
MCPModel Context Protocol工具发现、权限、上下文流转让 LLM/Agent 以标准协议调用 API、数据库、本地文件等Anthropic 开源 & 微软 Copilot Studio 已内嵌Microsoft Niklas Heidloff
APAAgentic Process Automation多智能体、实时决策、弹性扩缩用 AI Agent 取代传统 RPA,做端到端业务自动化多家 RPA 厂商跟进,UiPath、Automation Anywhere、Kognitos均发布方案Automation Anywhere UiPath Community Forum Kognitos - AI Automation
SOPStandard Operating Procedure决策图、步骤脚本把行业/公司的最佳流程写成结构化脚本供 Agent 执行SOP-Agent、Agent-S 等研究把 SOP 直接喂给 LLMarXiv arXiv

2. 三层关系:谁在底,谁在顶?

2.1 工具与数据的“接口层”——MCP

  • 定位:像 HTTP 之于网页,MCP 定义了 智能体 ↔ 工具/数据源 的通用语法、鉴权、流式上下文管理。Zhihu VMware Blogs
  • 为什么重要:没有统一接口,Agent 需要为每个 SaaS 写专用调用;MCP 把这些变成声明式 OpenAPI-YAML,让模型在推理时动态发现并调用。Microsoft Tech Community

2.2 流程知识的“脚本层”——SOP

  • 本质:把资深员工脑中的“如果-那么-异常处理”转成可解析的决策图/伪代码,挂在 Agent 记忆里当“导航图”。arXiv arXiv
  • 典型形态:SOP-Agent 在每一步先让 SOP-Navigator裁剪出 当前允许的 Action set,再让基础 LLM 决策;这样既减少幻觉也便于审计。OpenReview

2.3 业务编排的“控制层”——APA

  • 作用:调度 多个 Agent(有的负责 UI, 有的负责 API, 有的做监督)去完成跨系统、长时任务;同时监控 SLA、回滚、审计。Bot Nirvana Analyst Bot Nirvana Analyst
  • 与 SOP 的连接:APA 把企业已有 SOP 导入为“政策”,让下层 Agent 决策不能越界;Kognitos 等平台直接声明“Agent 的决策基于组织 SOP”。Kognitos - AI Automation
  • 与 MCP 的连接:APA 里每个子 Agent 通过 MCP 拿工具,所以 MCP 是 APA 的“标准 I/O 总线”。Microsoft

3. 组合示例:一次客户退款流程如何跑

  1. 触发(APA):客户在门户提交退货→ APA 触发“Refund SOP”。
  2. 流程导航(SOP):SOP-Navigator 输出步骤:验证订单→检查货物状态→生成 RMA→通知仓库…。
  3. 行动(Agent + MCP)
    • “订单查询 Agent” 用 MCP 调用 ERP API 拉取订单详情;
    • “物流 Agent” 用 MCP 调用 FedEx API 获取追踪号;
    • “支付 Agent” 用 MCP 调 Stripe API 执行退款。
  4. 协调与监控(APA):并发执行、回传状态;异常时走 SOP 的 fallback 分支。

整个过程中:MCP 解决“怎么调接口”,SOP 解决“先做哪步”,APA 解决“谁来做、做完咋收口”。


4. 生态与趋势

  • 协议大战:IBM 推 ACP、Google 推 A2A,但它们更偏 Agent-to-Agent,而 MCP 专注 Agent-to-Tool,两者已被视作互补。Niklas Heidloff Saptak Sen
  • 企业落地:微软 Copilot Studio、VMware Tanzu 等已把 MCP 接口做成“一键接入”;APA 则被 RPA 厂商当作下一代旗舰;SOP-Agent 论文把学术界和工业 SOP 桥接。VMware Blogs Automation Anywhere arXiv
  • 安全与治理:由于 Agent 获得“直接执行权”,各文档都强调细粒度权限、审计日志与“人类监督 Agent”模式。Tenable®

5. 你应该怎么用

目标先做什么注意事项
让 LLM 调企业 API封装成 MCP Server → 在开发/测试环境接入细化权限、限制可调用工具
把经验复制给 Agent把操作手册写成 SOP 文本 → 用 SOP-Agent/Agent-S 模板流程图需覆盖异常分支
全流程自动化在 APA 平台(或自建 Orchestrator)注册任务 → 引入前两者设立“人类飞行员”监督第一批流程

通过把 MCP 当“数字接口层”、SOP 当“业务知识层”、APA 当“编排治理层”,即可逐步升级到真正可落地的多智能体系统。

Поделиться этим Q&A