Media is the heartbeat of our digital age, shaping the way we connect, learn, and experience the world.

Leveraging cutting-edge deep learning and the vast prowess of Large Language Models, we’re at the forefront of innovation in video processing, video compression, video generation, 3D reconstruction, and multimodal media interactive.

Join our lab to revolutionize media tech, crafting a more connected, immersive, and interactive world.

@sjtu-medialab   @media_tech

Follow our Github for academic open source projects.
Follow our Wechat Official Account for the latest media technology progress.

Recent Posts

Unified Multimodal Retrieval Framework for Multimodal RAG
文章来源:PAKDD 2026 PDF 下载 多模态检索增强生成(Multimodal RAG)在缓解大模型幻觉、增强文档理解能力的同时,仍受限于模态割裂、OCR 带来的语义碎片化以及跨模态相似度不一致等问题。本文提出一种统一多模态检索框架,实现文本、图像与图文混合块在同一语义空间下的端到端检索。模型包含统一多模态编码器、编码后残差融合模块与缩放训练策略,分别负责消除模态壁垒、保持单模态语义一致性并捕捉跨模态交互、修正模态学习失衡。在训练过程中,通过均衡三模态样本分布强化视觉表征学习,让统一编码器既能独立完成各模态检索,搭配融合机制后表现进一步提升。在六个多模态文档问答基准上的实验结果表明,该检索框架在 Recall@1/Recall@3 指标上全面超越现有方法,以更小的模型规模实现更优的多模态检索效果。同时,框架的统一架构显著简化了多模态 RAG 系统复杂度,为分析与评测图文混合文档的跨模态对齐能力提供了新的思路。 PAKDD2026 | 面向多模态 RAG 的统一多模态检索框架 简介 图1.统一多模态检索概览 检索增强生成(Retrieval-Augmented Generation, RAG)已成为提升大语言模型事实性准确率与知识覆盖广度的核心技术,广泛应用于文档问答、信息检索等场景。然而,现实世界中的高质量知识往往以文本 - 图像混合文档的形式存在,如学术论文图表、工业报告、信息流程图、演示幻灯片等,其中图文之间存在强语义耦合关系。传统 RAG 系统要么仅处理文本,依赖 OCR 提取信息会导致语义碎片化与视觉信息丢失;要么采用独立的文本与图像检索通路,导致跨模态相似度分数缺乏统一标准,造成检索结果不一致、系统部署复杂等问题。 近年来,多模态检索与视觉语言模型(VLM)为混合文档理解提供了新路径。现有工作如 VisRAG、GME 等通过将文档编码为图像特征进行检索,或采用多分支独立编码策略,在特定数据集上取得了性能提升,但仍未从根本上解决模态割裂问题:一方面,分离的编码框架破坏了混合文档中图文的内在语义关联;另一方面,不同模态的表征空间不一致,导致跨模态检索的公平性与准确性难以兼顾。同时,现有训练策略普遍采用均匀采样方式,使得文本模态因参数占比高而快速收敛,图像与混合模态因学习容量不足而表征不充分,进一步加剧了跨模态检索的不平衡,限制了整体性能上限。

Recent Publications

A Priority Aware Free Viewpoint Video Transmit Scheme Based on QUIC
Depth-Guided Robust and Fast Point Cloud Fusion NeRF for Sparse Input Views
Hdrtvformer: Efficient Sdrtv-to-Hdrtv via Affine Transformation and Spatial-Aware Transformer
Neural Rate Control for Learned Video Compression
No-Reference Quality Assessment of Text-to-Image Generation