Unified Multimodal Retrieval Framework for Multimodal RAG

Haitao Huang, Tianyi Feng, Ruiyan Wang, Wei Xiong, Fei Huang, Zhengxue Cheng, Rong Xie, Li Song

2026-03-17 2 min read

文章来源：PAKDD 2026 PDF 下载

多模态检索增强生成（Multimodal RAG）在缓解大模型幻觉、增强文档理解能力的同时，仍受限于模态割裂、OCR 带来的语义碎片化以及跨模态相似度不一致等问题。本文提出一种统一多模态检索框架，实现文本、图像与图文混合块在同一语义空间下的端到端检索。模型包含统一多模态编码器、编码后残差融合模块与缩放训练策略，分别负责消除模态壁垒、保持单模态语义一致性并捕捉跨模态交互、修正模态学习失衡。在训练过程中，通过均衡三模态样本分布强化视觉表征学习，让统一编码器既能独立完成各模态检索，搭配融合机制后表现进一步提升。在六个多模态文档问答基准上的实验结果表明，该检索框架在 Recall@1/Recall@3 指标上全面超越现有方法，以更小的模型规模实现更优的多模态检索效果。同时，框架的统一架构显著简化了多模态 RAG 系统复杂度，为分析与评测图文混合文档的跨模态对齐能力提供了新的思路。

PAKDD2026 | 面向多模态 RAG 的统一多模态检索框架

简介

图1.统一多模态检索概览

检索增强生成（Retrieval-Augmented Generation, RAG）已成为提升大语言模型事实性准确率与知识覆盖广度的核心技术，广泛应用于文档问答、信息检索等场景。然而，现实世界中的高质量知识往往以文本 - 图像混合文档的形式存在，如学术论文图表、工业报告、信息流程图、演示幻灯片等，其中图文之间存在强语义耦合关系。传统 RAG 系统要么仅处理文本，依赖 OCR 提取信息会导致语义碎片化与视觉信息丢失；要么采用独立的文本与图像检索通路，导致跨模态相似度分数缺乏统一标准，造成检索结果不一致、系统部署复杂等问题。

近年来，多模态检索与视觉语言模型（VLM）为混合文档理解提供了新路径。现有工作如 VisRAG、GME 等通过将文档编码为图像特征进行检索，或采用多分支独立编码策略，在特定数据集上取得了性能提升，但仍未从根本上解决模态割裂问题：一方面，分离的编码框架破坏了混合文档中图文的内在语义关联；另一方面，不同模态的表征空间不一致，导致跨模态检索的公平性与准确性难以兼顾。同时，现有训练策略普遍采用均匀采样方式，使得文本模态因参数占比高而快速收敛，图像与混合模态因学习容量不足而表征不充分，进一步加剧了跨模态检索的不平衡，限制了整体性能上限。

为了打破模态壁垒、实现统一且高效的多模态 RAG 检索，本文提出一种面向多模态 RAG 的统一多模态检索框架。不同于传统的分离式或多分支架构，本文核心假设在于：通过共享的视觉 - 语言编码器可将文本、图像、图文混合块映射至同一语义空间，而轻量级的融合机制与均衡的训练策略能够在保持单模态语义一致性的同时，高效捕捉跨模态交互关系。基于这一设计思想，本文构建了包含统一多模态编码器、编码后残差融合模块以及缩放训练策略的完整框架，以实现文本查询驱动的端到端多模态检索。

具体而言，本文的贡献总结如下：

提出一种文本驱动的多模态统一检索框架，能够在同一语义空间内处理纯文本、纯图像和图文混合块，从根本上解决传统 RAG 的模态分离问题。
设计编码后残差融合模块，在保持单模态语义一致性的同时有效学习跨模态交互，提升图文混合块的表征质量。
提出理论支撑的缩放训练策略，补偿视觉与文本模块的容量差异与优化偏向，实现更均衡的多模态学习。
在六个多模态文档基准数据集上全面达到 SOTA，仅用 3.4B 参数模型超越更大规模基线，为高效多模态检索系统设计提供实用指导。

方法

图2.统一多模态检索框架的整体架构

在实际文档处理场景中，RAG系统需要将长文档分块进行检索。这些块可分为三种类型：纯文本块、纯图像块以及图文混合块。给定一个文本查询，本文的目标是从包含这三种类型的块集合中检索出最相关的内容。

传统的多模态检索方法采用分离式架构，为文本和图像构建独立的检索器，随后进行结果融合。这种专门化设计面临三个基本挑战：(1)模态壁垒： 不同检索器的相似度分数缺乏统一的比较标准；(2)语义碎片化： 分离式处理破坏了混合块中固有的语义耦合；(3)训练不平衡： 现有方法缺乏针对多模态场景的专门训练策略。

为解决这些限制，本文框架通过统一的编码架构将三种模态的块映射到相同的d维语义空间中，如图2所示。检索过程统一定义为查询与候选块嵌入之间的内积，实现跨模态的直接比较与排序。

统一多模态编码器架构

本文提出一种统一的多模态架构，采用共享编码器通过单个预训练的视觉语言模型处理所有输入模态。与传统方法采用独立的查询和文档编码器不同，本框架使用共享的视觉语言模型同时处理查询和文档，确保相同的语义空间。

给定一个输入$x$（文本、图像或多模态），编码器根据模态指示符$r$进行编码：

$$ \mathbf{H} = \mathcal{E}(x, r), \tag{1} $$

其中 $r \in {r_{\text{text}}, r_{\text{img}}}$ 表示输入模态, $\mathbf{H} = [\mathbf{h}_1, \mathbf{h}_2, \ldots, \mathbf{h}_s]$ 表示隐藏状态序列。

对于双模态块，设$d_{\text{text}}$和$d_{\text{img}}$分别表示其文本和视觉部分，编码器根据模态组成自适应处理三种场景：

$$ \mathbf{v}_d = \begin{cases} \text{Encode}(d_{\text{text}}, r_{\text{text}}) & \text{text} \\ \text{Encode}(d_{\text{img}}, r_{\text{img}}) & \text{image} \\ \text{Fusion}(\text{Encode}(d_{\text{text}}, r_{\text{text}}), \text{Encode}(d_{\text{img}}, r_{\text{img}})) & \text{bimodal} \end{cases} \tag{2} $$

考虑到因果注意力机制，本文采用位置加权平均池化：

$$ \mathbf{v} = \sum_{i=1}^{S} w_i \mathbf{h}_i, \tag{3} $$

其中$S$表示编码器输出的隐藏状态序列总长度，$w_i = \frac{i}{\sum_{j=1}^{S} j}$表示第$i$个隐藏状态向量$\mathbf{h}_i$ 的位置权重。所有嵌入向量经过 L2 归一化后，查询与文档之间的相似度通过余弦相似度计算。模型使用 InfoNCE 损失进行优化，并采用批内负采样策略。

双模态语义融合机制

双模态文档的语义表示对于有效的多模态检索至关重要。现有的早期融合方法在编码前混合模态，会损失单模态判别能力；而晚期融合方法（如平均）无法捕获跨模态交互。本文提出一种后分离编码残差融合机制，首先独立编码每个模态以保留单模态语义，然后通过带有残差连接的可学习融合层学习跨模态交互，确保语义一致性和有效的跨模态对齐。

本编码框架遵循三个核心设计原则：语义一致性、可组合性和鲁棒性。遵循这些原则，本文采用分离编码策略。对于双模态文档$(d_{\text{text}}, d_{\text{img}})$，每个模态被独立编码，单模态表示经过拼接后通过线性变换进行处理，并通过残差连接保留原始模态信息：

$$ \mathbf{h}_{\text{fused}} = \mathbf{h}_{\text{proj}} + \frac{\mathbf{v}_{\text{text}}^{(bi)} + \mathbf{v}_{\text{img}}^{(bi)}}{2}. \tag{4} $$

最后，L2 归一化确保融合表示位于同一语义空间中。这种残差线性融合保持了计算效率，有效捕获了跨模态交互，并产生可直接与单模态向量比较的归一化嵌入。

多模态缩放训练策略

在多模态模型训练中，均匀模态分布（文本:图像:双模态 = 1:1:1）会导致文本和双模态任务快速收敛，而图像模态性能持续欠佳。本文从三个互补视角理论分析这种不平衡：(1) 架构容量差异：视觉语言模型为文本组件分配的参数量显著多于视觉组件，造成固有能力不对称；(2) 梯度优化偏差：均匀采样下，文本模态的快速收敛主导梯度更新，导致优化器优先减少文本损失而牺牲视觉学习；(3) 数据表示复杂度：视觉信息需要通过多个 Transformer 层进行层次化特征提取，而文本提供直接的语义信号，需要更多训练样本才能达到相当的表征质量。

为缓解这些不平衡，本文提出一种缩放训练策略，通过增加图像模态的曝光度来补偿架构容量差异。2:8:6 的比例（文本:图像:双模态）源于参数比分析：考虑到约 7:1 的文本与视觉参数比，本文近似反转此比例以优先视觉学习，同时保持双模态样本以维持跨模态对齐。此比例平衡了三个目标：(1) 通过增加曝光补偿视觉参数稀缺，(2) 通过双模态样本保持文本-视觉对齐，(3) 用最少的纯文本样本保持文本质量。实验结果验证了不平衡分析的有效性和策略的效果。

实验

数据集

本文评估采用视觉问答基准：MP-DocVQA（工业文档）、ArXivQA（学术论文）、ChartQA（图表）、InfographicsVQA（信息图）、PlotQA（科学图谱）和 SlideVQA（演示幻灯片），数据集统计信息如表 1 所示。

为实现三模态检索，本文使用 Qwen-VL-Max 生成的文本描述增强图像-文本对。这种增强是必要的，因为许多 VQA 数据集仅包含图像候选而不附带文本，这会在统一框架中妨碍文本、图像和双模态块之间的公平比较。标准化提示指导描述生成，随后进行后处理，包括冗余去除和格式标准化。

表1.数据集统计信息

实验设置

训练配置。 本文采用 MiniCPM-V 2.0，包含 SigLIP 视觉编码器和 MiniCPM 语言模型，在 2 张NVIDIA A800 GPU 上使用 InfoNCE 损失进行优化。

评估指标。 本文使用 Recall@1 和 Recall@3 作为评估指标，这是检索任务中的标准指标。Recall@K 衡量至少一个相关文档出现在前 K 个检索结果中的查询比例，直接反映 RAG 应用的检索质量。

实验结果

表 2 展示了在六个数据集上的比较结果，显示了本文框架的优越性能。值得注意的是，本文超越了建立在更强大的 Qwen2.5VL 基础模型上的竞争对手 GME 和 Jina，证明了本文的统一架构、可学习融合机制和理论驱动的训练策略有效补偿了基础模型规模的限制。

表2.各模型在六个数据集上的 Recall@1/Recall@3 性能对比

跨模态语义对齐分析

为探究缩放训练策略如何提升检索性能，本文分析了跨模态语义对齐，通过检查查询-文档相似度分布。对每个数据集，本文计算查询与按模态分类（纯文本、纯图像、图文混合）的真实文档之间的余弦相似度，并使用箱线图可视化结果。

图3.各模态查询 - 文档余弦相似度分布

图 3 表明缩放训练显著提升了语义质量，使所有数据集的各模态相似度分布向更高语义空间偏移，既增强了个体模态表征，也促进了协调的跨模态发展。在六个数据集上的持续改进验证了该策略的通用适用性和强领域泛化能力，提升的查询-文档相似度与表 2 中的检索增益直接相关，验证了 2:8:6 比例作为解决文本查询驱动多模态检索中跨模态不一致性的原则性方法。

消融实验

双模态融合机制。 为分离本文融合机制的贡献，本文与 VisRAG 进行对比，后者采用类似的统一编码器架构但使用简单的平均进行双模态融合。表 3 展示了本文融合机制在所有数据集上的一致改进。这些结果验证了本文融合设计：可学习参数有效捕获文本-视觉相关性，而残差连接保留原始模态信息，通过适应任务特定特征显著超越简单平均。

表3.双模态融合机制消融实验（Recall@1/Recall@3）

缩放训练策略。 为验证缩放训练策略的有效性，本文比较均匀训练（文本:图像:双模态 = 1:1:1）与本文提出的 2:8:6 策略。表 4 显示 2:8:6 策略在所有六个数据集上的一致改进，验证了本文的假设：增加图像模态曝光补偿了架构容量差异。

表4.缩放训练策略消融实验（Recall@1 / Recall@3）

总结

本文提出了一种用于RAG的统一多模态检索框架，通过三个创新解决模态分离和不一致问题：(1)统一编码器将所有模态映射到共享语义空间，(2)可学习残差融合机制适应任务特定的跨模态交互，(3)理论驱动的缩放训练策略，用于补偿架构能力差异和优化过程的不平衡。本文方法在六个基准上取得最先进结果，消融研究验证了各组成部分的贡献。本文的模态不平衡分析为多模态系统设计提供了实用指导，未来工作将把框架扩展到更多模态，探索自适应训练比例，并进一步将检索器集成到端到端RAG流程中，实现整体优化。

Research

Li Song

Professor, IEEE Senior Member

Professor, Doctoral Supervisor, the Deputy Director of the Institute of Image Communication and Network Engineering of Shanghai Jiao Tong University, the Double-Appointed Professor of the Institute of Artificial Intelligence and the Collaborative Innovation Center of Future Media Network, the Deputy Secretary-General of the China Video User Experience Alliance and head of the standards group.