医学影像多模态大模型研究

2025/08/11·StepFun can make mistakes, check important info.

帮我找一下多模态大模型关于医学影像的benchmark和方法类工作

Requirement clarification

我需要帮您找关于医学影像领域的多模态大模型的benchmark和方法类工作。这是一个专业性较强的研究领域，让我先分析您的需求。

医学影像多模态大模型是将医学影像数据(如CT、MRI、X光等)与其他模态(如文本报告、临床数据)结合的AI系统。您可能需要了解:

主流评估基准(benchmarks)
代表性方法论工作
最新研究进展

为了提供更精准的信息，我需要搜索相关内容。

medical imaging multimodal large language models benchmark evaluation

文件

[PDF] Are We on the Right Way for Evaluating Large Vision-Language Models?

文件

[PDF] A NOVEL OPHTHALMIC BENCHMARK FOR EVALUATING MULTIMODAL LARGE LANGUAGE MODELS WITH FUNDUS PHOTOGRAPHS AND OCT IMAGES

知乎

### 一、前言多模态大型语言模型（MLLMs）结合了大型语言模型的卓越推理和概括能力，并具备理解视觉输入的能力，为具身任务规划（Embodied Task Planning）开辟了新的途径。这些

知乎

作者：杨锦霞，中国人民大学高瓴人工智能学院硕士一年级在读，研究方向为多模态学习。引言：近期，大型语言模型在各种任务上展现出优异的性能，展示了广阔的应用前景。然而，在医学领域，现有的模型主要是

X-MOL学术平台

Nuclei instance segmentation and classification are a fundamental and challenging task in whole slide Imaging(WSI)analysis.Most dense nuclei prediction studies rely heavily on crowd labelled data on high-resolution digital images,leading to a time...

掌桥科研

Medical imaging图书，由北京市:高等教育出版社在2017年发行，属于å½±åè¯æå¦类图书

掌桥科研

Photoacoustic imaging,or the use of light to create sound,can result in bett.

掌桥科研

Ameet Jain 会议名称：《Medical imaging》|2010年关键词：Cardiac image-guided intervention;Image registration;Multimodal image registration;trans-esophageal echocardiography;Pre-operative MRI;6.Development and validation of a real-time reduced field o...

View all 10 sources

根据搜索结果，我了解到您需要了解多模态大模型在医学影像领域的benchmark和方法类工作。医学影像多模态大模型是将医学影像数据(CT、MRI、X光等)与其他模态(如文本报告、临床数据)结合的AI系统。

从搜索结果中可以看出，这一领域有几个重要的benchmark和方法论工作，包括MultiMedQA、Med-PaLM、Med-PaLM 2等。还有一些针对特定医学领域的评估基准，如眼科领域的基准测试，以及病理图像理解的PathBench等。

为了提供更精准的信息，我需要了解您对这个主题的具体兴趣点：

您是否对某个特定医学影像类型(如CT、MRI、病理图像、眼底照片等)的多模态模型更感兴趣？
您更关注模型评估基准(benchmarks)，还是创新方法论，或者两者都需要？
您是否需要包含最新的研究进展(如2024-2025年的工作)？

跳过

好的，这是为您制定的行动计划。

Research plan

分析并定义“多模态大模型”、“医学影像”和“benchmark”在当前语境下的核心概念，为后续研究划定范围。
优先分析您提供的搜索结果中高相关性的内容，特别是来自X-MOL的PathBench和arXiv的眼科benchmark，提取初步的论文和基准名称作为研究起点。
在arXiv、Google Scholar、PubMed等学术平台，使用“medical imaging multimodal benchmark”、“radiology LLM dataset”、“pathology vision-language benchmark”等关键词，系统性检索相关的评测基准（benchmark）论文。
在顶级会议（如MICCAI, CVPR, NeurIPS）和期刊（如IEEE TMI, Nature Medicine, The Lancet Digital Health）网站上，检索关于多模态大模型在医学影像领域应用的创新方法（method）论文，关注点包括影像报告生成、视觉问答和辅助诊断。
针对检索到的每个benchmark，提取其涵盖的医学影像模态（如CT、MRI、病理切片）、评测任务（如分类、分割、问答）和评估指标。
针对检索到的每种方法，梳理其核心技术、模型架构、所用数据集及关键创新点。
将收集到的信息分类整理为“Benchmark”和“方法”两大类别，并为每个类别建立结构化列表。
综合所有分析结果，撰写一份总结性报告，分别概述医学影像领域多模态大模型的代表性benchmark和前沿方法，并指出当前的研究趋势。

开始研究

Deep Research

首先，我需要搜索相关信息。

多模态大模型医学影像 benchmark

文件

[PDF] Towards Generalist Biomedical AI

文件

[PDF] Multimodal Foundation Models for Medical Imaging - A Systematic Review and Implementation Guidelines

知乎

GMAI-MMBench 是上海人工智能实验室，华盛顿大学，莫纳什大学，华东师范大学等多所科研单位联合推出的一个用于全面评估医疗多模态大模型的基准。

智源社区

GMAI-MMBench 由来自全球的284 个下游任务数据集构建而成，涵盖38 种医学影像模态、18 项临床相关任务、18 个科室以及视觉问题解答(VQA) 格式的4 种感知 ...

超神经

这个基准测试覆盖了广泛的数据集，包含284 个不同来源的数据集，涉及38 种医学图像模态和18 个临床相关任务，覆盖了18 个不同的医学部门，并在4 种不同的感知粒度上进行了评估， ...

知乎

本文基于两篇较新的survey，用于介绍视觉多模态大模型领域的benchmarks。参考： https:// arxiv.org/pdf/2409.1814 2 导读：本文将MLLM的benchm

读要网

多模态医学影像智能数据标注平台申报单位：沈阳东软智能医疗科技研究院有限公司、东软云科技有限公司推荐单位：辽宁省数据局一、案例简介为破解医学影像标注工具、金标准数据集（经过严格标注、具有高可靠性和权威性的数据集）严重依赖国外的瓶颈，创新提出医学影像分割大模型MISM等数据标注关键技术，研发集数据、模型、工具、场景为一体的医学影像智能数据标注平台，实现标注工具自主可控及国产化替代，标注效率提升两个...

CSDN技术社区

医疗领域大规模预训练模型性能基准对比#性能指标概述在医疗计算任务中，研究主要集中在评估大型语言模型（LLMs）的医学计算能力。这包括了来自55种不同医学计算任务的手动审查实例共1000个案例[^2]。查询效率与成本分析实验表明，在处理查询请求时，TO-Router展示了更好的综合表现，能够在保持较低的成本的同时减少查询执行的时间，并维持较高的模型性能水平[^1]。图像分类任务的具体实现细节针对图像分类任务，特别是...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0MzI5MTIyL2ZhLzdiL2QwL2ZhN2JkMGM2MTlhODM2NmIwNzNkNWM3ZWQ0ZWFhNWUwLmljbw==&sign=yx:C1HunXUgWw_Hnydsxo7hNSZ08AU=&tv=400_400

View all 17 sources

我将为您查找多模态大模型在医学影像领域的benchmark和方法类工作。首先，让我搜索更多相关信息。

medical imaging multimodal large language model benchmark

文件

[PDF] HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

文件

[PDF] A NOVEL OPHTHALMIC BENCHMARK FOR EVALUATING MULTIMODAL LARGE LANGUAGE MODELS WITH FUNDUS PHOTOGRAPHS AND OCT IMAGES

arxiv.org

This paper presents a comprehensive survey of various benchmark datasets employed in medical LLM tasks. These datasets span multiple modalities.

arxiv.org

The development of GMAI-MMBench as a benchmark for evaluating LVLMs' capabilities represents a significant advancement in the pursuit of general medical AI.

openreview.net

The authors introduce MMAD, a benchmark specifically designed for anomaly detection in industrial settings to evaluate the capabilities of multimodal large ...

知乎

X-MOL学术平台

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9jZG4uc20uY24vdGVtcC8yMDIxMDkxNDE3MTUxNC0wdmVxY2ZwYTk2Nmh2c3p5OHRmcW96a3l6cHp0a2VxYy5KUEc=&sign=yx:kROpGG3jrz4QX9N1U0SMnACwTWg=&tv=400_400

View all 18 sources

我将继续搜索更具体的医学影像多模态大模型相关的benchmark和方法。

medical imaging multimodal large language model methods benchmark GMAI-MMBench PathBench

文件

[PDF] Understanding the robustness of vision-language models to medical image artefacts

文件

[PDF] A Survey on Evaluation of Multimodal Large Language Models

知乎

GMAI-MMBench 是上海人工智能实验室，华盛顿大学，莫纳什大学，华东师范大学等多所科研单位联合推出的一个用于全面评估医疗多模态大模型的基准。

arxiv.org

The development of GMAI-MMBench as a benchmark for evaluating LVLMs' capabilities represents a significant advancement in the pursuit of general medical AI.

arxiv.org

We developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to ...

researchgate.net

To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data ...

知乎

2024/8/9 由上海人工智能实验室发布更新全面多模态评估基准，推进通用医学人工智能的发展。目前遇到特定的挑战 1、现有的基准测试大多是基于特定的学术文献，可能只针对医学领域的某一个方面或单一

X-MOL学术平台

View all 18 sources

我需要查找更多关于PathBench的信息，这是一个专注于病理学图像理解的多模态大模型基准。

PathBench: Advancing the Benchmark of Large Multimodal Models for Pathology Image Understanding

文件

[PDF] A NOVEL OPHTHALMIC BENCHMARK FOR EVALUATING MULTIMODAL LARGE LANGUAGE MODELS WITH FUNDUS PHOTOGRAPHS AND OCT IMAGES

文件

[PDF] A Foundational Multimodal Vision Language AI Assistant for Human Pathology

ieeexplore.ieee.org

In this work, we propose PathBench, which comprises three subsets at both patch and WSI levels, to refine and enhance the validation of LMMs.

researchgate.net

In this work, we propose PathBench, which comprises three subsets at both patch and WSI levels, to refine and enhance the validation of LMMs. At ...

ieeexplore.ieee.org

The emergence of large multimodal models (LMMs) sig- nificantly advances the field of pathology. Utilizing vast pre- training datasets, these models exhibit ...

X-MOL学术平台

PathBench:Advancing the Benchmark of Large Multimodal Models for Pathology Image Understanding at Patch and Whole Slide Level IEEE Trans.Med.Imaging(IF 9.8)Pub Date:2025-07-02 Yuxuan Sun,Hao Wu,Chenglu Zhu,Yixuan Si,Qizi Chen,Yunlong Zhan...

腾讯云

bench regexp Run only those benchmarks matching a regular expression.By default,no benchmarks are run.To run all benchmarks,use '-bench.' or '-bench=.'.The regular expression is split by unbracketed slash(/)characters in...

腾讯云

type B struct { common importPath string/import path of the package containing the benchmark context*benchContext N int previousN int/number of iterations in the previous run previousDuration time.Duration/total...

View all 18 sources

已掌握的信息

核心评测基准 (Benchmarks) 已明确: 已识别出两个核心的、具有代表性的医学影像多模态大模型评测基准。其一是覆盖面极广的 GMAI-MMBench，它整合了284个数据集，涵盖38种影像模态和18个临床任务，以视觉问答（VQA）形式进行评测，并提供多粒度的评估方式。其二是专注于病理学领域的 PathBench，它在“图像块”和“全切片”两个层级上对模型进行评估，并推出了专门的 PatchVQA 数据集以防止模型走捷径。此外，还初步识别了如 MultiMedBench、OmniMedVQA、IMIS-Bench 等其他相关基准。
代表性方法与模型 (Methods) 已初步收集: 已经识别出几种关键的方法和模型。例如，谷歌的通用生物医学AI系统 Med-PaLM M；英伟达的开源医疗影像框架 MONAI，该框架正向多模态和代理式AI发展；以及一些企业发布的专用模型，如深睿医疗用于三维通用分割的 SAMI 模型和砺进科技关于影像报告生成的专利技术。同时，在评测基准的论文中也提及了 LLaVA-Med、RadFM 等模型。
领域关键挑战与趋势已浮现: 现有研究普遍认为，医学领域的评测比通用领域更具挑战性，主要因为数据获取难、标注成本高、临床关联性要求严。因此，当前的研究趋势是构建更全面、更贴近临床场景、评估维度更多样的评测基准，并发展针对特定医学领域（如病理、眼科）或特定任务（如分割、报告生成）的专用模型。

下一步行动计划

深化核心Benchmark分析:
- 系统化信息提取：将针对已识别的核心基准 GMAI-MMBench 和 PathBench，深入阅读其原始论文（arXiv:2408.03361, IEEE TMI 论文等），系统性地提取并整理其设计理念、覆盖的影像模态、具体评测任务、评估指标、数据集构成及获取方式。
- 横向对比与总结：将上述信息与其他已发现的基准（如 MultiMedBench, OmniMedVQA）进行对比，制作一个全面的对比表格，清晰地展示各个基准的特点、优势与适用范围，为报告提供核心图表。
构建方法类工作知识图谱:
- 关键方法梳理：围绕已识别的模型（如 Med-PaLM M, SAMI, LLaVA-Med）和技术（如MONAI框架），查找其原始论文或技术报告。梳理每项工作的核心架构、技术创新点（如模型结构、训练策略、数据应用方式）、所使用的数据集以及在关键Benchmark上的性能表现。
- 关联分析：建立“方法-Benchmark”的关联，明确哪些模型在哪些评测基准上取得了领先成绩，从而勾勒出当前领域的技术前沿（State-of-the-Art）。
构建并撰写研究报告:
- 设计报告框架：搭建一份包含引言、评测基准篇、方法篇、趋势分析与展望、结论等部分的详细报告框架。
- 分章节内容填充：基于前两步收集和整理的信息，逐一填充报告的各个章节。在“评测基准篇”和“方法篇”中，将重点使用图表（如前述的Benchmark对比表和方法性能表）进行可视化呈现，做到图文并茂。
- 趋势洞察与提炼：在报告的“趋势分析”部分，综合所有信息，分析当前研究的局限性（如数据隐私、模型可解释性、3D影像处理能力），并预测未来的发展方向（如与基因组学等多模态数据的融合、交互式AI助手的落地应用等）。

首先，我需要查找更多关于医学影像多模态大模型的方法类工作。

medical imaging multimodal large language models methods Med-PaLM M LLaVA-Med

文件

[PDF] Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine

文件

[PDF] Towards Generalist Biomedical AI

arxiv.org

We summarize three main directions of application within healthcare: medical reporting, medical diagnosis, and medical treatment.

arxiv.org

LLaVA-Med [15] refines image-text pairs from PMC-15M [27] and trains a biomedical-specialized MLLM using a limited dataset, building upon the ...

mdpi.com

We present a detailed synthesis of the current applications of LLMs across medical imaging tasks, including automated radiology report generation, disease ...

知乎

Title: LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day PDF:

知乎

5月16日，Google Research和DeepMind发布了Med-PaLM 2，迈向专家级医疗问答的大语言模型（Towards Expert-Level Medical Question A

X-MOL学术平台

View all 19 sources

我需要查找更多关于Med-PaLM M的详细信息，这是一个重要的医学多模态大模型。

Med-PaLM M multimodal biomedical AI system MultiMedBench

文件

[PDF] Towards Generalist Biomedical AI

澎湃新闻

丰色发自凹非寺量子位 | 公众号 QbitAI 全球首个全科医疗大模型正式发布：由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLM M，懂临床语言、懂影像，

知乎

本研究的目标是构建一个通用生物医学AI 系统（Med-PaLM M），能够处理多种数据模态，并在多个下游任务上取得高性能。 2. 相关研究. 2.1 基础模型与多模态AI.

arxiv.org

Med-PaLM M reaches performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models ...

encord.com

Med-PaLM is a large-scale generalist biomedical AI system that operates as a multimodal generative model, designed to handle various types of biomedical data.

research.google

Med-PaLM M reached performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models by a wide ...

PingWest品玩

由谷歌旗下多家研究所组成的专家团队近日发布论文，公布了一款名为Med-PaLM M 的多模态模型。

百度百科

Med-PaLM是由谷歌及DeepMind团队开发的医疗领域专用大型语言模型，其首代版本于2022年底推出，是首个通过美国医学执照考试的人工智能系统。2023年7月，研究团队在《自然》杂志发表论文，公布Med-PaLM在临床医生评估中回答准确率达92.6%，与人类医生水平（92.9%）接近。其迭代版本Med-PaLM 2于2023年3月推出，医学考试准确率超过85%，并在梅奥诊所等机构进行测试，展现辅...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0MzQwMzk0LzQ4LzkzLzFhLzQ4OTMxYTEyOGM5YTY3NmRmNDAyNTUyZGU1MDczN2Y3Lmljbw==&sign=yx:yBpjoXYeiLbCOaNS2_R9FN1KsXg=&tv=400_400

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTYyODEzMjI0L2I0LzExL2Y3L2I0MTFmN2ExMGZlNzgxYzNhNjMwYzYxYWU2NmE0ODY2LnBuZw==&sign=yx:VnmFtuBPyzBrSG70neamT35QLU4=&tv=400_400

View all 16 sources

我需要继续搜索更多关于医学影像多模态大模型的方法类工作，特别是一些最新的研究和技术。

medical imaging multimodal large language models methods 2024 2025

文件

[PDF] PARAMETER-EFFICIENT FINE-TUNING MEDICAL MULTIMODAL LARGE LANGUAGE MODELS FOR MEDICAL VISUAL GROUNDING

文件

[PDF] INTERPRETABLE BILINGUAL MULTIMODAL LARGE LANGUAGE MODEL FOR DIVERSE BIOMEDICAL TASKS

sciencedirect.com

This survey provides a thorough overview of representative methods and related applications. In this study, we first introduced the concept of modality.

arxiv.org

We summarize three main directions of application within healthcare: medical reporting, medical diagnosis, and medical treatment.

mdpi.com

We present a detailed synthesis of the current applications of LLMs across medical imaging tasks, including automated radiology report generation, disease ...

知乎

Paper: NeurIPS 2024 Code: https:// github.com/TsinghuaC3I/ UltraMedical Huggingface: https:// hf.

知乎

Paper: CVPR2024 Code:NULL ## 文章摘要在本文中，我们提出了一种医学多模态生成框架MedM2G，其关键的创新是在一个统一的模型中对齐、提取和生成医学多模态。除了单一或

X-MOL学术平台

View all 20 sources

我需要查找更多关于OmniMedVQA的信息，这是一个重要的医学影像多模态评测基准。

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

文件

[PDF] scientific data

文件

[PDF] Development of a large-scale medical visual question-answering dataset

huggingface.co

We introduce OmniMedVQA, large-scale and comprehensive Visual Question Answering benchmark tailored to the medical domain. This benchmark is ...

huggingface.co

OmniMedVQA, a comprehensive medical VQA benchmark, highlights the limitations of existing LVLMs in understanding medical images across various modalities and ...

arxiv.org

This benchmark is collected from 73 different medical datasets, including 12 different modalities and covering more than 20 distinct anatomical regions.

openaccess.thecvf.com

We propose OmniMedVQA, a large-scale and compre- hensive Visual Question Answering benchmark tailored to the medical domain. OmniMedVQA contains 12 dif- ferent ...

openaccess.thecvf.com

To solve this problem in this paper we introduce OmniMedVQA a novel comprehensive medical Visual Question Answering (VQA) benchmark. This benchmark is collected ...

arXiv.org

To address this challenge,this paper introduces OmniMedVQA,a large-scale and comprehensive Visual Question Answering benchmark designed for the medical domain.Considering the scarcity of medical image-text data,we collect numerou...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTU1NjU0MTQwLzYzLzJhLzk2LzYzMmE5NjgyYTc1ZDJjNDFkNjU4N2U0MWUyNmFlZDM0LmpwZWc=&sign=yx:mAsWgKjnGgt7WjW6iRl_1rAv4Es=&tv=400_400

View all 18 sources

已掌握的信息

核心评测基准 (Benchmarks) 已明确: 已识别出多个关键的医学影像多模态评测基准。其中，GMAI-MMBench 以其全面的覆盖范围著称，整合了284个数据集、38种影像模态和18项临床任务；PathBench 则深度聚焦于病理学领域，创新地在“图像块”和“全切片”两个层级进行评估；谷歌为 Med-PaLM M 模型专门构建了 MultiMedBench，涵盖影像、文本和基因组学等14项任务；OmniMedVQA 也是一个大规模的医学视觉问答（VQA）基准，源于73个真实医疗场景的数据集。
代表性方法与模型 (Methods) 已涌现: 掌握了该领域几个标志性的模型和技术路线。Med-PaLM M 是谷歌推出的通用生物医学AI系统，它使用单一模型权重处理包括影像、基因组在内的多模态数据。LLaVA-Med 提出了一种高性价比的课程学习方法，利用PubMed的大规模图文数据进行微调。此外，2024-2025年的新进展揭示了新的研究方向，如 UltraMedical 专注于通过高质量偏好数据集构建专业的通用模型，而 MedM2G 则探索了基于扩散模型的统一多模态生成框架。
主要研究趋势已清晰: 当前研究正从针对单一任务的“专家模型”向能够处理多种任务和模态的“通用模型”演进。高质量、贴近临床、多维度的评测基准是推动领域发展的关键。同时，以数据为中心的AI方法论（如构建高质量的指令和偏好数据集）正成为提升模型能力的核心驱动力。视觉问答（VQA）、报告生成和疾病诊断是当前最主流的应用任务。

下一步行动计划

系统化梳理与对比核心Benchmark:
- 深入分析 GMAI-MMBench、PathBench、MultiMedBench 和 OmniMedVQA 的原始论文和技术文档。
- 提取关键维度信息，包括但不限于：覆盖的影像模态（如CT、MRI、病理、眼底等）、核心任务类型（如VQA、报告生成、分类）、数据集规模、评估指标以及各自的独特设计（如GMAI-MMBench的多粒度评估、PathBench的双层级验证）。
- 将提取的信息整合，用于后续生成一个全面的横向对比表格，直观展示各基准的特点与适用场景。
构建关键方法的技术图谱:
- 围绕 Med-PaLM M、LLaVA-Med、UltraMedical、MedM2G 等代表性方法，系统性地梳理其技术细节。
- 重点归纳每个方法的核心架构（如基于PaLM-E、Llama等）、关键创新点（如通用多任务设计、课程学习、偏好优化、扩散模型应用）、所依赖的训练数据以及在权威Benchmark上的性能表现。
- 将这些信息结构化，为后续生成方法演进的脉络图和性能对比表奠定基础。
构建并撰写研究报告:
- 设计一份逻辑清晰的报告框架，应至少包含引言、评测基准篇、前沿方法篇、核心任务分析、趋势与挑战及结论等章节。
- 基于前序步骤整理的结构化信息，填充各章节内容。在“评测基准篇”和“前沿方法篇”中，计划利用可视化工具生成对比图表，以增强报告的可读性和专业性。
- 在“趋势与挑战”部分，将综合所有信息，提炼出该领域的核心发展趋势（如通用化、数据中心化），分析面临的挑战（如数据隐私、模型幻觉、3D/4D数据处理），并对未来方向（如与基因组学等更多模态融合、交互式AI助手）进行展望。

现在，我需要整理所有收集到的信息，并生成一个可视化的表格来比较不同的医学影像多模态大模型评测基准。

可视化工具

现在我需要整理关于医学影像多模态大模型的方法类工作，同样生成一个可视化表格进行比较。

可视化工具

现在我将整理所有收集到的信息，提供一个关于多模态大模型在医学影像领域的benchmark和方法类工作的全面总结。

多模态大模型在医学影像领域的Benchmark和方法类工作

一、医学影像多模态评测基准（Benchmark）

随着多模态大语言模型（MLLMs）在医疗领域的应用日益广泛，针对医学影像的专业评测基准也不断涌现。这些基准测试对于评估模型在真实医疗场景中的表现至关重要，因为医学影像具有获取难度高、专业性强、模态多样等特点知乎。目前，已有多个代表性的医学影像多模态评测基准，它们从不同维度对模型能力进行全面评估。

1. 主要评测基准对比

以下是四个最具代表性的医学影像多模态评测基准的详细对比：

比较维度	GMAI-MMBench	PathBench	MultiMedBench	OmniMedVQA
发布机构/团队	上海人工智能实验室、华盛顿大学、莫纳什大学等	IEEE Transactions on Medical Imaging发表	谷歌研究院和DeepMind	CVPR 2024发表
发布年份	2024	2025	2023	2024
覆盖的医学影像模态数量	38种	1种	7种	12种
具体包含的主要模态类型	X射线、CT、MRI、超声、PET等	病理切片图像	放射学(CT、MRI、X光)、病理学、皮肤病学、乳房X光等	多种医学影像模态
评测任务类型	18种临床相关视觉问答任务	病理图像分类、描述、全切片图像分类	14种任务，包括问答、报告生成、视觉问答、图像分类、基因组变异检测等	医学视觉问答(VQA)
数据集规模	来自284个数据集	包含PatchVQA(5,382图像，6,335问题)	12个开源数据集	118,010图像，127,995问答对
评估的主要指标	多粒度评估(图像级、轮廓级、掩模级等)	图像块级和全切片级的理解能力	多任务性能、零样本泛化能力	医学视觉问答准确率
特色/创新点	迄今覆盖面最广的医疗基准，支持多粒度感知能力评估，允许用户自定义评估任务	首个同时在图像块和全切片两个层级评估模型的基准，引入干扰选项防止捷径学习	首个跨医学影像、临床文本和基因组学的多模态基准，专为评估通用生物医学AI系统设计	所有图像均来自真实医疗场景，覆盖20多个人体解剖区域，适合评估LVLMs在医学领域的应用

从上表可以看出，这些评测基准各有侧重：GMAI-MMBench覆盖了最广泛的医学影像模态；PathBench专注于病理学领域的深度评估；MultiMedBench是首个跨医学影像、临床文本和基因组学的综合基准；而OmniMedVQA则提供了大规模的真实医疗场景视觉问答数据。

2. 核心评测基准详解

2.1 GMAI-MMBench

GMAI-MMBench是由上海人工智能实验室联合华盛顿大学、莫纳什大学、华东师范大学等多所科研单位推出的全面评估医疗多模态大模型的基准。该基准通过搜集来自全球的284个下游任务数据集，并改造成涵盖38种不同影像模态、18个科室和18个临床相关任务的多模态VQA问答知乎。

GMAI-MMBench的一个重要创新是支持4种不同数据粒度的问答评估，能够有效地测试交互式多模态大模型的能力。这解决了当前医疗多模态大模型测试基准面临的模态数量和任务数量不足的问题知乎。

2.2 PathBench

PathBench专注于病理学领域，是首个同时在"图像块"和"全切片"两个层级评估模型的基准。该基准包含三个子集，旨在完善和增强对大型多模态模型（LMMs）的验证ieeexplore.ieee.org。

在图像块级别，PathBench引入了PatchVQA数据集，包含5,382张图像和6,335个多项选择问题，这些问题经过专业设计，防止模型通过捷径学习获得答案。在全切片级别，PathBench提供了详细的WSI报告数据集，通过创新方法整合了详细的图像块描述ieeexplore.ieee.org。

2.3 MultiMedBench

MultiMedBench是谷歌研究院和DeepMind团队开发的多模态生物医学基准，包含14个多样化任务，涵盖医学问答、乳腺摄影和皮肤病学图像解释、放射学报告生成和摘要、基因组变异检测等arxiv.org。

该基准的独特之处在于它不仅覆盖了医学影像，还包括临床文本和基因组学数据，是首个专为评估通用生物医学AI系统设计的综合基准。MultiMedBench由12个去标识化的数据集组成，涵盖7种生物医学数据模态知乎。

2.4 OmniMedVQA

OmniMedVQA是一个大规模的医学视觉问答基准，收集自73个不同的医学数据集，包含118,010张图像和127,995个问答项，覆盖12种不同的医学影像模态，涉及20多个人体解剖区域huggingface.co。

该基准的所有图像均来自真实医疗场景，确保了与医学领域需求的一致性，适合评估大型视觉语言模型（LVLMs）在医学领域的应用huggingface.co。OmniMedVQA的评估结果揭示了当前LVLM在理解真实医学图像方面的局限性huggingface.co。

二、医学影像多模态大模型方法类工作

随着医学影像多模态评测基准的发展，各研究机构也相继推出了针对医学影像的多模态大模型。这些模型采用不同的技术路线，在医学影像理解、诊断和报告生成等方面展现出强大的能力。

1. 代表性方法对比

以下是四个代表性医学影像多模态大模型的详细对比：

比较维度	Med-PaLM M	LLaVA-Med	UltraMedical	MedM2G
开发机构/团队	谷歌研究院和DeepMind	微软研究院	清华大学C3I研究所	CVPR 2024发表
发布年份	2023	2023	2024	2024
基础架构/基座模型	PaLM-E（多模态语言模型），使用ViT作为视觉编码器	基于LLaVA架构，使用CLIP ViT-L/14作为视觉编码器，Vicuna-13B作为语言模型	基于Llama-3系列	基于扩散模型的多流框架
模型规模	三种规格：PaLM-E 12B (PaLM 8B + ViT 4B)、PaLM-E 84B (PaLM 62B + ViT 22B)、PaLM-E 562B (PaLM 540B + ViT 22B)	约13B参数	8B和70B两个版本	未明确指出
训练数据来源	MultiMedBench（12个开源数据集）	PMC-15M（来自PubMed Central的1500万生物医学图像-文本对）	高质量人工数据集和合成数据集，包含医学检查问题、PubMed文献研究和开放式问题	10个医学影像数据集
支持的主要模态	医学影像（CT、MRI、X光等）、临床文本、基因组学	医学影像和文本	主要是医学文本，但也支持医学影像理解	CT、MRI、X射线等医学影像
核心技术创新	单一模型权重处理多种生物医学任务，端到端微调，使用特定任务指令和一次性示例	课程学习方法（先通过图题对齐学习生物医学词汇，再使用GPT-4生成的指令数据学习开放性对话），成本效益高（15小时训练）	以数据为中心的方法，构建高质量偏好数据集，结合专业技能与一般技能，训练医学奖励模型	统一的医学多模态生成框架，包括中心对齐策略、医学视觉不变性保持、多模态交互扩散策略
主要应用任务	医学图像分类、医学问答、视觉问答、放射学报告生成和摘要、基因组变异检测等14种任务	生物医学图像视觉问答、开放性医学对话	医学问答、医学推理、医学影像理解	医学图像到图像生成、报告生成、医学图像生成
性能表现/评测结果	在MultiMedBench的所有任务上接近或超越SOTA，在胸部X光报告生成上，临床医生在40.5%的病例中更偏好Med-PaLM M的报告	在三个标准生物医学视觉问答数据集上，某些指标上优于先前的监督式最先进方法	8B模型显著超越MedPaLM 1、Gemini-1.0、GPT-3.5和Meditron-70B；70B模型在MedQA-USMLE任务中取得86.5分，是开源LLM中最高的结果	在10个数据集上的5个医疗生成任务中表现优于最先进的方法

从上表可以看出，这些模型采用了不同的技术路线：Med-PaLM M基于PaLM-E架构，是首个通用生物医学AI系统；LLaVA-Med采用课程学习方法，具有高成本效益；UltraMedical以数据为中心，构建高质量偏好数据集；而MedM2G则基于扩散模型，提出了统一的医学多模态生成框架。

2. 核心方法详解

2.1 Med-PaLM M

Med-PaLM M是谷歌研究院和DeepMind团队开发的多模态生成模型，能够灵活编码和解释包括临床语言、影像和基因组在内的生物医学数据PingWest品玩。它是首个多任务、多模态的生物医学AI系统，可以使用同一组模型权重执行医学图像分类、医学问答、视觉问答、放射学报告生成和摘要、基因组变异检测等多种任务arxiv.org。

Med-PaLM M的基本架构是PaLM-E（多模态语言模型），并采用ViT预训练模型作为视觉编码器，具体实现了三种组合：PaLM-E 12B、PaLM-E 84B和PaLM-E 562B澎湃新闻。在性能评估方面，Med-PaLM M在MultiMedBench的所有任务上接近或超越了现有的SOTA，在胸部X光报告生成上，临床医生在40.5%的病例中更偏好Med-PaLM M的报告澎湃新闻。

2.2 LLaVA-Med

LLaVA-Med是微软研究院开发的生物医学视觉-语言对话助手，其关键思想是利用从PubMed Central提取的大规模、广覆盖的生物医学图题数据集，使用GPT-4从图题中自我指导生成开放性指令遵循数据，并使用一种新颖的课程学习方法对大型通用领域的视觉-语言模型进行微调知乎。

该模型首先通过图题对齐学习生物医学词汇，然后使用GPT-4生成的指令遵循数据来掌握开放性对话语义，广泛模拟外行人逐渐习得生物医学知识的过程知乎。这使得研究团队能够在不到15小时的时间内（使用八个A100显卡）训练出LLaVA-Med知乎。在三个标准生物医学视觉问答数据集上，微调后的LLaVA-Med在某些指标上优于先前的监督式最先进方法知乎。

2.3 UltraMedical

UltraMedical是清华大学C3I研究所开发的专业医疗大模型，基于Llama-3系列，提供8B和70B两个版本知乎。该模型采用以数据为中心的方法，通过结合人工和合成的生物医学指令，构建了一个大规模、多样化和高质量的数据集，内容涵盖医学检查问题、PubMed文献研究以及开放式问题知乎。

UltraMedical的一个重要创新是训练了医学奖励模型，并基于该奖励模型的偏好，通过自生成的响应策略不断优化模型知乎。在性能方面，8B模型显著超越了MedPaLM 1、Gemini-1.0、GPT-3.5和Meditron-70B；而70B模型在MedQA-USMLE任务中取得了86.5的成绩，是开源LLM中最高的结果知乎。

2.4 MedM2G

MedM2G是一个统一的医学多模态生成框架，是首个在一个统一的模型中对齐、提取和生成医学多模态的医学生成模型知乎。该模型采用基于扩散模型的多流框架，通过三个步骤实现多模态生成：对齐、提取和生成知乎。

MedM2G的核心创新包括：中心对齐策略，通过在输入和输出共享空间中采用的中心对齐方法，实现所有模态的一致性；医学视觉不变性保持，通过最小化两个增强视图的非对角元素来保持医学视觉不变性；多模态交互扩散策略，通过自适应表示和可共享的交叉注意子层条件到每个跨模态扩散器，增强医学跨模态交互能力知乎。在实验方面，MedM2G在10个数据集上的5个医疗生成任务中表现优于最先进的方法知乎。

三、医学影像多模态大模型的应用场景与挑战

1. 主要应用场景

医学影像多模态大模型在医疗领域有着广泛的应用前景：

医学影像报告生成：模型可以根据医学影像自动生成结构化的报告，提高放射科医生的工作效率。例如，浙江飞图影像科技有限公司开发的基于大语言模型的医学影像报告生成方法，能够获取患者的原始影像数据和临床背景文本，从海量历史数据中筛选相关案例，最终生成医学影像报告金融界。
医学诊断辅助：多模态大模型可以分析医学影像，辅助医生进行疾病诊断。Med-PaLM 2在医学考试问题上的表现达到"专家"水准，准确率超过85%今日头条。
医学教育与培训：这些模型可以用于医学生的教育和培训，帮助他们理解复杂的医学影像和相关知识。
医学研究：多模态大模型可以分析大量医学影像和文献数据，发现潜在的研究方向和临床相关性。

2. 面临的挑战

尽管医学影像多模态大模型取得了显著进展，但仍面临诸多挑战：

数据隐私与安全：医学数据的敏感性要求模型在处理过程中必须严格保护患者隐私。尽管专有模型具有强大的功能，但由于医疗数据的敏感性，它们面临着潜在的数据泄露和患者信息暴露的风险知乎。
模型可解释性：在医疗决策中，模型的可解释性至关重要，但当前的多模态大模型往往是"黑盒"式的，缺乏足够的可解释性。
医学专业性：医学领域的专业性要求模型具有深厚的医学知识和理解能力，这对模型的训练和优化提出了更高要求。
模型幻觉：Med-PaLM等模型存在生成错误信息（即"胡言乱语"）的风险，这在医疗领域可能导致严重后果百度百科。

四、未来发展趋势

医学影像多模态大模型的未来发展趋势主要包括：

通用化与专业化并行：一方面，像Med-PaLM M这样的通用生物医学AI系统将继续发展，能够处理多种医学任务；另一方面，针对特定医学领域（如病理学、放射学）的专业模型也将不断涌现。
数据中心化方法：如UltraMedical所示，以数据为中心的方法，特别是构建高质量的医学指令和偏好数据集，将成为提升模型能力的重要途径知乎。
多模态融合深化：未来的模型将更深入地融合医学影像、临床文本、基因组学等多种模态的数据，提供更全面的医学分析和决策支持。
临床实践整合：随着模型性能的提升和可靠性的增强，这些模型将逐步整合到临床实践中，成为医生的得力助手。例如，Med-PaLM已在梅奥诊所等顶级医疗机构进行测试百度百科。

总结

医学影像多模态大模型评测基准和方法类工作已经取得了显著进展。评测基准从不同维度对模型能力进行全面评估，而方法类工作则采用多种技术路线，不断提升模型的性能和适用性。尽管面临诸多挑战，但随着技术的不断发展和临床实践的深入整合，医学影像多模态大模型有望在未来医疗领域发挥更加重要的作用，为医学诊断、治疗和研究带来革命性的变化。

Requirement clarification

Deep Research

多模态大模型在医学影像领域的Benchmark和方法类工作

一、医学影像多模态评测基准（Benchmark）

1. 主要评测基准对比

2. 核心评测基准详解

2.1 GMAI-MMBench

2.2 PathBench

2.3 MultiMedBench

2.4 OmniMedVQA

二、医学影像多模态大模型方法类工作

1. 代表性方法对比

2. 核心方法详解

2.1 Med-PaLM M

2.2 LLaVA-Med

2.3 UltraMedical

2.4 MedM2G

三、医学影像多模态大模型的应用场景与挑战

1. 主要应用场景

2. 面临的挑战

四、未来发展趋势

总结

Key references