glm5 和 minimax2.5 是多模态吗？支持图片输入吗？

结论：GLM-5 和 MiniMax-M2.5 都不算“原生支持图片输入”的多模态聊天模型。

GLM-5：智谱官方文档把它标成 “输入模态：文本，输出模态：文本”，所以 不支持图片作为输入。如果你要做视觉理解，智谱另有 GLM-4.6V 这类视觉模型。(docs.bigmodel.cn)
MiniMax-M2.5：MiniMax 官方把它归在 text models 里；而且其官方 Anthropic 兼容接口明确写了 type="image" not supported，也就是 目前不支持图片输入。(MiniMax API Docs)

补充一点，MiniMax 整个平台本身是多模态的，有图像、视频、语音等能力，也有单独的视觉模型和图像接口；但这不等于 M2.5 本体 就能直接吃图片。官方还提到可以通过 MCP 的 understand_image 工具做图像理解，不过那属于工具能力，不是 M2.5 原生图片输入。(MiniMax)

你要是愿意，我可以顺手给你列一张： “GLM-5 / GLM-4.6V / MiniMax-M2.5 / MiniMax-VL-01 各自支持什么输入输出”的对照表。

glm5 和 minimax2.5 是多模态吗？支持图片输入吗？

سؤال

الفكرة

الإجابة

مشاركة هذا السؤال والجواب