多模态推荐系统研发

Créé le : 30 mars 2025

Répondu en utilisant GPT-4.5 par Chat01

Question

多轮交互式商品检索
https://zhuanlan.zhihu.com/p/14900790011
https://blog.csdn.net/weixin_42645636/article/details/142766514

【借鉴下这个】https://mp.weixin.qq.com/s/y_GXEljUQJ2IQzkvpAySvw
https://mp.weixin.qq.com/s/LXKIaH8NxMEJ5L6PglBttA
https://mp.weixin.qq.com/s/vec5Z9VS6x_NMlDVKQLJqA

论文链接:https://arxiv.org/pdf/2503.06520v1.pdfGitHub仓库:https://github.com/dvlab-research/Seg-Zero 通过认知强化进行推理链引导分割
论文标题:MageBench: Bridging Large Multimodal Models to Agents
论文链接:https://arxiv.org/pdf/2412.04531
Leaderboard:https://huggingface.co/spaces/microsoft/MageBench-Leaderboard
代码链接:https://github.com/microsoft/MageBench

https://zhuanlan.zhihu.com/p/31589460437多模态推理相关工作速览

预研多模态对话式推荐系统,旨在通过自然语言对话和视觉理解,为用户提供动态、个性化的商品推荐。
项目应用于时尚电商场景,用户可通过文字或图片表达需求(如“找类似这款但颜色更亮的裙子”),系统结合多轮交互实时调整推荐策略,提升了用户购买转化率和体验。
核心技术:图文embedding/聚合检索/、、、

可以后面尝试:“想要这个颜色”+图a+“这个款式”+图b ==》图c

结论:
Llava 理解指令能力更强
训练VE取得收益大, llm加lora比冻结有提升 但不大

"我在2024年主导了多模态对话推荐系统的研发,目标是解决传统推荐系统交互僵硬、缺乏场景感知的问题。当时面临三个核心挑战:

  1. 多模态对齐精度不足:商品图文特征与用户视觉偏好存在语义鸿沟
  2. 对话策略动态性缺失:无法根据会话进度调整推荐强度
  3. 工程落地复杂度高:需要兼顾效果与模型推理效率

传统clip效果很差,因为商品标题很奇怪
商品主题不清楚的badcase

产品原型:
初步设计:接入原有搜索场景,搜索出来的图片长按出对话框
后续设计:采用对话的交互形式

部门原有能力
[图片]

任务
[图片]

[图片]

数据

组成
[图片]
https://arxiv.org/html/2412.16855v1

构造
https://zhuanlan.zhihu.com/p/27855892960
https://github.com/PKU-ICST-MIPL/MAI_ICLR2025
https://openreview.net/forum?id=gXyWbl71n1&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)

随着多轮交互需求的增加,多轮组合图像检索(MTCIR)逐渐成为研究热点,能够利用用户迭代反馈不断优化检索结果。
但是1 数据量少 2 以前的方式是拼接单轮的,没有联系上下文

本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括:(1)回溯性:每轮修改文本可能涉及历史参考图像信息(如保留特定属性),要求算法回溯利用多轮历史信息;(2)多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,且交互轮次数量接近其27倍,提供了丰富的多模态检索场景。

以前的数据
. 多轮:MT FashionIQ 和 MT Shoes。2. 单轮:FashionIQ、CIRR 和 CIRCO
对话式检索数据集
https://zhuanlan.zhihu.com/p/378725997

组合图像检索

组合视频检索

通用图文检索
https://zhuanlan.zhihu.com/p/674986218
数据构造方式

数据主要来源于两个渠道:1. 从现有的单轮组合图像检索数据集收集图像及相关文本;2. 从多个电商平台爬取图像及相关文本。在数据预处理过程中,本文对爬取的图像进行了清洗,去除损坏、模糊以及非商品类图像。

自动化的数据集构建框架-修改生成框架(MGF),旨在通过捕捉参考图像和目标图像对之间的差异,自动构建数据集。

  1. 数据构建框架 (MGF):
  • 选取某一类商品的多张图片(比如一个类别的N+1张图片)作为交易轮次的素材。
  • 用图像描述工具为每张图片生成对应的标题(描述图片的文案)。
  • 利用大型语言模型(比如类似ChatGPT这样的AI)来分析这些标题的差异,并基于差异生成一个修改后的文本(描述每一轮变化的地方)。
  • 如果有需要,就会“回溯”到之前的图片,根据旧图片和最新图片中共享的特点生成合适的修改文本。
  1. 两种回溯场景:
  • (指代)回滚:用户可能会说“相比刚刚的图片,我更喜欢第二轮的图片”,这个过程会生成与指定轮次相关的修改描述。
  • 属性组合:用户可能会表示希望结合多个轮次的属性,比如“我喜欢第一轮的颜色,第二轮的图案”,这里会先明确需要保留哪些共同属性,然后再补充后续的修改需求。
  • 后续可以支持对图片的修改,prompt
    [图片]

电商专用 模板化生成?
"产品主体:{品类},主色:{颜色},设计元素:{元素},场景:{场景}"

input: 修改指令txt+原始图片img→修正后图片img

input: 修改指令txt+原始图片img+图片描述信息txt/label→修正后图片img+图片描述信息txt/label

input: 修改指令txt+原始图片img(多图)+图片描述信息txt/label→修正后图片img+图片描述信息txt/label

input: 修改指令txt(多轮对话)+原始图片img(多图)+图片描述信息txt/label→修正后图片img+图片描述信息txt/label

数据生成

[图片]
https://arxiv.org/html/2412.16855v1
模型设计
用llava-next作为主体
(借鉴其多轮对话。图文理解能力,通用多模态检索,其中容纳多种模态和不同的检索任务。比clip类型通用。。可以文字检索文字?
缺点就是计算量,以及为了next-token而作的model适不适合做检索)

通过在M-BIER数据集上的16个多模态检索任务中进行微调,发现MLLM检索器在处理包含文本和图像的复杂查询时,比基于CLIP的检索器表现更好--https://zhuanlan.zhihu.com/p/19118802412

LLaVa-Next是一种集成了CLIP图像编码器、大型语言模型(LLM)和视觉-语言MLP投影器的多模态模型,用于将图像特征与LLM的输入嵌入空间对齐。

  • LLaVa-E:使用<eos>标记嵌入来聚合多模态输入的信息,这是一种常用于文本检索的方法。
  • LLaVa-P:提示MLLM以总结每个多模态查询或文档输入,使用最后一个标记的嵌入来编码多模态输入。
  • NV-Embed-v1:将LLaVa-Next中的LLM替换为微调的基于LLM的文本检索模型NV-Embed-v1,同时保持图像编码器和视觉-语言MLP投影器不变。解析https://zhuanlan.zhihu.com/p/16854104123 池化评价embedding

用户的指令长短不一,所以对所有token取avg 不合理,长度有影响。我们取最后一个token

[图片]
型号列表
暂时无法在飞书文档外展示此内容
https://zhuanlan.zhihu.com/p/18239373616
https://zhuanlan.zhihu.com/p/717884243
https://blog.csdn.net/m0_74824755/article/details/146150583
https://zhuanlan.zhihu.com/p/9613363595

clip类型模型
CLIP模型,研究者们采用了一种称为CLIPSF的方法,该方法通过分别编码图像和文本输入,然后将得到的向量相加来融合图像和文本特征。

[图片]

https://blog.csdn.net/qq_63585949/article/details/143094854
https://blog.csdn.net/qq_27590277/article/details/125796035

[图片]
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning
正负例对比学习
分类:如果检索样本是类别a,那么可以从类别a的数据里随机采样出正例,在非类别a的数据集合里随机取出负例。 S2S、P2P和STS类任务同理可以构造训练样例
[图片]

Loss/训练

端到端训练,llm上用lora

一开始数据靠构造,后面就直接用日志中真实数据(冷启动)

阶段1
[图片]
阶段2
[图片]

[图片]

[图片]

负样本挖掘

[图片]

加任务区分的前缀?/指令模板

每种任务加前缀(研究一下编码策略,是token化的0,1,2? Or 000,010之类的)
不同任务之间检索到的样本作为难负样本

扩大batch,做无限长度的infonce
Inf-CL: 把 Contrastive Loss 的 Batch Size 冲到100M! - 知乎
https://zhuanlan.zhihu.com/p/1681887214

我的解决方案是:

首先,设计基于CLIP的跨模态对齐模块,通过对比学习使图文特征空间误差降低23.6%;
其次,创新性地引入强化学习对话策略,根据用户停留时长动态调整推荐策略,使转化漏斗第二层到第三层的流失率减少18%;
最后,基于MBSE方法论进行系统模块化设计,将3D渲染引擎与推荐服务解耦,推理延迟控制在800ms以内。
项目上线后,在3C数码品类实现GMV单月峰值破亿,其中通过视觉引导策略带来的新增交易占比达37%。这段经历让我深刻认识到,AI落地必须平衡技术创新与工程可行性。"

未来计划
扩展到多图像输入、图文交错数据以及多语言数据。

实验设置/实施细节

阿里的论文
5.1 设置
训练数据
基于第3节的研究结果,我们使用包含多种检索模态的多样化数据集对模型进行了训练,总计包含800万条实例。对于单模态检索任务,我们使用了包括MSMARCO (Nguyen et al., 2016)、NQ (Kwiatkowski et al., 2019)、HotpotQA (Yang et al., 2018)、TriviaQA (Joshi et al., 2017)、SQuAD (Rajpurkar et al., 2016)、FEVER (Thorne et al., 2018)以及用于SimCSE的AllNLI (Gao et al., 2021)等数据集,共选取了100万条数据。从ImageNet (Deng et al., 2009)中,我们提取了100万条图像对图像的训练实例,将同一类别内的图像作为正样本,其他类别的图像作为负样本。对于跨模态检索任务,我们从LAION (Schuhmann et al., 2022)、mscoco (Lin et al., 2014)和Docmatix (Laurençon et al., 2024)数据集中合计选取了200万条实例。此外,对于融合模态检索任务,我们总共包含了200万条实例,其中110万条是我们合成的,其余来自M-BEIR (Wei et al., 2024)训练数据。

训练配置
我们使用了Qwen2-VL (Wang et al., 2024b)模型系列作为MLLM的主干网络,对具有20亿(2B)和70亿(7B)参数的模型进行了训练。训练中采用了低秩适配(LoRA)(Hu et al., 2022),其秩为8,学习率为1e-4,温度参数设为0.03。为了管理Qwen2-VL在处理不同图像分辨率时所需的视觉token数量并保持训练效率,我们将每张图像的视觉token数量限制为最多1,024个。

对于包含图像的数据,我们将文本的最大长度设置为1,800个token,批量大小为2B模型时为128,7B模型时为32。对于仅包含文本的数据,最大长度设置为512个token,批量大小为2B模型时为512,7B模型时为128。每个训练样本包含8个负例。为节省GPU内存,我们采用了梯度检查点(Chen et al., 2016)技术,并使用bfloat16精度进行模型训练。所有训练均在8张NVIDIA A100 GPU上进行,每张GPU配备80GB显存。

基线
我们将我们的方法与四种检索系统进行了比较:(1) 之前具有代表性的UMR模型,例如基于文本编码器的VISTA (Zhou et al., 2024a)和基于MLLM的E5-V (Jiang et al., 2024a);(2) 强大的多模态表示(嵌入)模型,例如One-Peace (Wang et al., 2023),该模型支持超越文本和图像的模态,因此也可以在我们的UMRB上进行测试;(3) 最近的视觉文档检索模型,即DSE (Ma et al., 2024);以及(4) 经典的跨模态管道CLIP得分融合,简称为CLIP-SF,其提供了顶级的跨模态性能。我们未将与最新文本检索模型的比较纳入其中,因为VISTA已表现出相当的性能水平。

相关论文

检索+推理

MLLM2vec

对比学习infonce


===

背景-挑战-方案-成果模型:
"多模态对话推荐系统的研发,目标是解决传统推荐系统交互僵硬、缺乏场景感知的问题。当时面临三个核心挑战:

  1. 多模态对齐精度不足:商品图文特征与用户视觉偏好存在语义鸿沟
  2. 工程落地复杂度高:MLLM 推理效率,和如何利用好组里现有工具

项目收益:
量化指标:突出系统上线后的DAU增长、推荐准确率等业务指标

  • 上线后3个月DAU突破120万,GMV环比增长34%
  • 获2024年度AICDD(人工智能商业化落地)最佳场景创新奖
  • 沉淀3项发明专利(多模态对话状态跟踪方法、跨设备用户画像同步系统等)
    项目上线后,在3C数码品类实现GMV单月峰值破亿,其中通过视觉引导策略带来的新增交易占比达37%。这段经历让我深刻认识到,AI落地必须平衡技术创新与工程可行性。"

多模态对话式推荐系统
技术负责人 | 2024.03-2025.03

构建商品多模态数据库:文本描述(规格/评论)+视觉特征(3D模型/实拍图)
用户行为日志处理:融合点击率、会话时长、语音/图像交互数据
采用CLIP(fuse) or llava2vec模型进行图文特征对齐,建立跨模态检索索引
基于用户反馈数据的RLHF微调策略,提升对话策略的个性化程度
实时特征融合:将对话上下文+视觉偏好+历史行为映射至128维向量空间

  • 首创渐进式视觉引导策略:通过3D商品交互式问答,用户平均停留时长提升至9.2分钟(+42%)
  1. 对话管理层
  • 设计混合对话策略([4]):
    • 主动引导:通过视觉问答挖掘潜在需求
    • 被动响应:基于语义解析处理开放式查询
  • 构建对话状态跟踪器,动态更新用户画像向量

技术亮点:

  • 提出跨模态注意力融合机制,使图文特征交互准确率提升23.6%
  • 设计渐进式对话引导策略,用户平均停留时长增加4.2分钟

【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval-CSDN博客
https://arxiv.org/html/2412.16855v1
https://zhuanlan.zhihu.com/p/3310311566/edit
https://zhuanlan.zhihu.com/p/8442920221/edit
https://zhuanlan.zhihu.com/p/4274920912
https://zhuanlan.zhihu.com/p/6302891346
帮我总结一下相关工作

Navigateur

search()

Réponse

近年来,多模态对话式推荐系统和多轮组合图像检索成为研究热点,旨在通过整合文本、图像等多种模态信息,提升人机交互的智能化和个性化水平。以下是对相关工作的总结:

1. 多模态对话式推荐系统

传统的推荐系统在交互性和场景感知方面存在局限,而多模态对话式推荐系统通过融合自然语言处理和视觉理解,旨在为用户提供更动态和个性化的商品推荐。例如,用户可以通过文字描述或上传图片来表达需求,系统根据多轮交互实时调整推荐策略,从而提升用户体验和购买转化率。

2. 多轮组合图像检索(MTCIR)

随着用户对多轮交互需求的增加,MTCIR逐渐成为研究焦点。该方法利用用户的迭代反馈,不断优化检索结果。然而,现有方法主要采用“多次单轮”的范式,往往忽视历史轮次的信息,导致在需要回溯历史信息的修改请求中出现检索失败。为解决这一问题,研究者构建了新的多轮组合图像检索数据集和评测基准FashionMT,其特点包括回溯性和多样化,要求算法充分利用多轮历史信息进行检索。

3. VISTA模型

VISTA是一种用于通用多模态检索的视觉文本嵌入模型。该模型引入了灵活的架构,通过视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。此外,研究者开发了两种数据生成策略,生成高质量的合成图像-文本数据,以促进嵌入模型的训练。在多阶段训练算法的支持下,VISTA在零样本和监督设置下的多种多模态检索任务中均取得了优异的性能。

4. Qwen-VL与Qwen2-VL模型

Qwen-VL系列模型是多模态大模型,旨在同时处理和理解文本与图像信息。Qwen2-VL在Qwen-VL的基础上进行了改进,引入了朴素动态分辨率支持、M-RoPE(多模态旋转位置嵌入)等技术,增强了模型处理多模态数据的能力。这些改进使得模型能够更好地理解和生成多模态内容,提升了在多模态任务中的表现。

5. 统一多模态对比学习框架

传统的图像分类训练和基于对比学习的图文匹配训练各有优劣。为融合两者的优势,研究者提出了统一的多模态对比学习框架。该框架通过构建图像、文本和标签的三元组,利用对比学习的方法,同时利用两种训练模式的优势,提升模型的泛化能力和判别能力。

综上所述,这些研究工作为多模态对话式推荐系统和多轮组合图像检索领域的发展提供了新的思路和方法,有助于提升人机交互的智能化和个性化水平。

Partager cette Q&R