login
MLLMs评测基准全面解析
2025/05/26·StepFun can make mistakes, check important info.
我在调研Multimodal Large Language Models(MLLMs)相关的研究,针对MLLMs的benchmarks and evaluation非常之多,请帮我生成一份过于所有针对MLLMs的benchmarks and evaluation的报告。

我将帮您调研多模态大语言模型(MLLMs)的评测基准(benchmarks)和评估方法。为了提供一份全面且有针对性的报告,我需要了解以下几点:

  1. 您是否对特定类型的多模态能力评测更感兴趣(如视觉理解、视频理解、音频处理、跨模态推理等)?还是希望全面覆盖所有主要评测基准?

  2. 您希望报告中包含哪些具体内容:是只需要列出主要评测基准及其特点,还是需要包含各个模型在这些基准上的表现对比?

  3. 您对报告的时效性有何要求?是否需要特别关注2024年以来最新发布的评测基准?

我在调研Multimodal Large Language Models(MLLMs)相关的研究,针对图文大模型的benchmarks and evaluation非常之多,请帮我生成一份过于所有针对MLLMs的benchmarks and evaluation的报告。

我理解您的需求是调研多模态大语言模型(MLLMs)相关的研究,特别是关于图文大模型的评测基准(benchmarks)和评估方法(evaluation)的全面报告。

我将为您准备一份全面的报告,涵盖目前主要的MLLMs评测基准和评估方法,重点关注图文多模态能力的评测。报告将包括各个基准测试的特点、评估维度、难度级别以及在学术和工业界的应用情况等内容。

请稍等片刻,我将为您整理这份MLLMs评测基准和评估方法的综合报告。

Deep Research

问题拆解

  1. 核心调研主题:针对多模态大语言模型(MLLMs),特别是图文大模型的评测基准(benchmarks)和评估方法(evaluation)进行全面梳理。
  2. 报告关键内容模块
    • 图文MLLM评测基准
      • 识别并列出当前学术界和工业界广泛使用或新兴的针对图文理解与生成的评测基准。
      • 阐述各评测基准的设计目标、任务类型(如视觉问答、图像描述、视觉推理、图文检索、OCR、多模态对话等)、数据集构成、评估指标、特点及局限性。
    • 图文MLLM评估方法
      • 总结和归纳现有的评估图文MLLM性能的方法学,包括定量评估指标(如准确率、BLEU、ROUGE、CIDEr、METEOR、SPICE、VQA Score等)和定性评估方法(如人工评估、案例分析)。
      • 探讨不同评估维度,例如模型的感知能力、理解能力、生成能力、推理能力、组合泛化能力、鲁棒性、安全性、效率、可解释性等。
      • 分析自动化评估与人工评估的优缺点及适用场景。
    • 最新进展与趋势:关注近年来(特别是2023-2025年)在图文MLLM评测领域的新基准、新方法、新挑战和未来发展方向。
  3. 报告的预期产出:一份结构清晰、内容全面、信息可靠的关于图文MLLM评测基准与评估方法的综合性报告框架及研究计划。

行动计划

  1. 初步信息搜集与筛选

    • 通过学术搜索引擎和数据库进行广泛的文献检索,重点查找关于“Multimodal Large Language Models benchmarks”、“Vision-Language Model evaluation”、“image-text model benchmarks”、“MLLM evaluation metrics”等关键词的综述性文章、高被引论文以及最新发表的研究。
    • 信息来源应优先考虑顶级学术会议(如CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, ACL, EMNLP)的论文集、知名学术期刊以及权威的预印本平台(如arXiv)。
    • 关注主要研究机构和科技公司在MLLM评测领域发布的技术报告和博客。
  2. 图文MLLM评测基准的梳理与归类

    • 基于搜集到的信息,系统整理现有的图文MLLM评测基准。
    • 对每个基准,详细记录其名称、提出时间、核心任务、数据集来源与规模、主要评估指标、以及其在评估模型特定能力方面的侧重点。
    • 将这些基准按照评估的任务类型(如视觉问答、图像描述、视觉推理等)或评估的能力维度(如基础感知、复杂推理、生成质量、鲁棒性、安全性等)进行分类。
  3. 图文MLLM评估方法的分析与总结

    • 系统梳理用于评估图文MLLM的各种方法和指标。
    • 区分并详细描述常用的定量评估指标,解释其计算方法、适用场景及优缺点。
    • 探讨定性评估方法的重要性、实施方式(如人工打分标准、错误类型分析)及其在弥补定量评估不足方面的作用。
    • 分析当前评估方法存在的挑战,如评估的全面性、公平性、成本效益等。
  4. 识别前沿动态与未来趋势

    • 特别关注近两年新提出的评测基准和评估方法,了解它们试图解决的问题和带来的新视角。
    • 研究领域内对于现有评测体系的反思和讨论,例如对模型真实能力评估的挑战、对更接近人类评估方式的探索等。
    • 总结图文MLLM评测领域可能的发展方向,如更全面的能力评估、对模型社会偏见和安全风险的评估、以及更高效和自动化的评估流程。
  5. 构建报告框架与撰写提纲

    • 设计一份逻辑清晰、层次分明的报告结构,确保覆盖所有关键信息点。
    • 主要章节可包括:引言(背景、意义、挑战)、图文MLLM评测基准详解(按类别或能力维度组织)、图文MLLM评估方法与指标体系、新兴评测基准与方法趋势、总结与未来展望。
    • 在每个章节下细化关键内容点,形成详细的撰写提纲。
  6. 信息整合与报告初稿撰写准备

    • 将整理和分析得到的信息系统性地填充到报告框架的相应部分。
    • 确保所有信息的来源可靠,并准备好进行规范的引用。
    • 注重报告的专业性、准确性和易读性。

现在开始执行第一步,搜集关于MLLMs评测基准和评估方法的最新研究信息。

搜索

Search

Multimodal Large Language Models benchmarks evaluation 2024 survey
CSDN技术社区
文章浏览阅读641次,点赞17次,收藏12次。MLLMs通常由处理输入文本的大语言模型、编码其他各种模态(如图像、视频)输入的模态编码器以及将文本输入和其他模态输入对齐到一个对齐特征空间的模态投影器。另外,为了评估模型生成文本或图像的能力,广泛采用了如BLEU、ROUGE和METEOR[185],[186]等指标。特定基准旨在评估MLLMs在特定任务或领域的表现,通常聚焦于需要专门评估的领域,如社会经济、科学、医学任务及其他应用。依我看,MLLM的能力大致分为识别、理解、推理、数学、科学知识,数学和科学知识...
arxiv.org
This paper presents a comprehensive review of 200 benchmarks and evaluations for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning ...
CSDN技术社区
➡️ 论文标题:SEED-Bench-2-Plus:Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension ➡️ 论文作者:Bohao Li,Yuying Ge,Yi Chen,Yixiao Ge,Ruimao Zhang,Ying Shan ➡️ 研究机构:Tencent AI Lab、ARC Lab,Tencent PCG、School of Data Scie...
搜狐网
[12]Liu Y,Duan H,Zhang Y,et al.Mmbench:Is your multi-modal model an all-around player?[J].arXiv preprint arXiv:2307.06281,2023. [13]Li B,Wang R,Wang G,et al.Seed-bench:Benchmarking multimod...
智源社区
为填补这一空白,我们提出了图像蕴含理解基准测试(II-Bench),旨在评估模型对图像的高阶感知能力。通过在多个MLLMs上进行II-Bench的大量实验,我们取得了重要发现。首先,观察到MLLMs和人类在II-Bench上的表现存在显著差距...
arxiv.org
Despite the advancements and impressive performance of Multimodal Large Language Models (MLLMs) on benchmarks, their effectiveness in real-world, long-...
腾讯
多模态大模型(Multimodal Large Language Models,MLLM)正迅速崛起,从只能理解单一模态,到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。在“如何全面客观地评测多模态大模型”这一问题的回答上,过去常用的多模态大模型评测方法是堆砌多个任务的成绩。但简单以“更多任务上更高分”衡量模型强弱并不可靠,模型在某些任务上表现突出也并不一定意味着它在所有领域都更接近人类智能水平。正因如此,在AI竞赛进入“下...
CSDN技术社区
跨模态注意力(Cross-Modal Attention): 使用Transformer的注意力机制,让不同模态的特征相互交互。原理:以文本向量为Query,图像向量为Key和Value,计算注意力权重: Attention(Q,K,V)=softmax(d k ​ ​ Q K T ​)V, 其中,Q 是文本向量,K,V 是图像向量,d k ​ 是向量维度。优点:捕获模态间的深层语义关系。混合融合:结合多种融合方式,灵活适应任务需求。从文本LLMs扩展: 文本LLMs的Transforme...
View all 16 sources

感谢您提供的搜索结果。我看到有几篇关于多模态大语言模型(MLLMs)评测基准的重要文献,包括最新的综述论文。我将继续搜索更多相关信息,以构建一份全面的报告。

首先,让我搜索更具体的MLLMs评测基准信息,特别是关注图文多模态能力的评测。

搜索

Search

MLLMs benchmarks evaluation metrics visual language models
arxiv.org
This paper presents a comprehensive review of 180 benchmarks and evaluation for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning, ...
机器之心
Improving Candidate Generation for Low-resource Cross-lingual Entity Linking.Shuyan Zhou, Shruti Rijhawani, John Wieting, Jaime Carbonell, Graham Neubig...
CSDN技术社区
We have summarized the current assessment methods of RAG,covering 26 tasks,nearly 50 datasets,outlining the evaluation objectives and metrics,as well as the current evaluation benchmarks and tools.Additionally,we anticipate futur...
CSDN技术社区
文章中VI.B Error metrics的相关内容: We quantify the accuracy of surface reconstruction by using the“cloud/mesh”distance metric provided by CloudCompare.The process involves firstly coarsely aligning the reconstruction with the source model by man...
cnblogs.com
In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks, and LLaMA-65B is competitive with the best models, Chinchilla-70B and Pa...
paperreading.club
VI assistive LMMs overlook the emotional needs of VI individuals, and current benchmarks lack emotional evaluation of these LMMs. To address these gap...
澎湃新闻
jcxinmeiti@126.com设计/ 艺术学院设计团队排版/ 赵 旻 范思佳原标题:《正式发布!江西财经大学100周年校庆视觉识别系统(VI)!》阅读原文
搜狐网
As large-scale,pre-trained language models achieve human-level andsuperhuman accuracy on existing language understanding tasks,statistical biasin benchmark data and probing studies have recently called into question theirtrue capabilities...
View all 16 sources

我将继续搜索更多关于MLLMs评测基准的具体信息,特别是关注主要的评测基准及其评估维度。

网页解析

摘要

这篇论文对多模态大语言模型(MLLMs)的评估基准进行了全面综述,涵盖了180个基准测试。文章将MLLM评估分为五个主要类别:(1)感知与理解,(2)认知与推理,(3)特定领域应用,(4)关键能力,以及(5)其他模态。论文详细介绍了MLLM的架构,包括视觉编码器、视觉-语言投影器和大语言模型三个主要组件,以及预训练和指令微调的训练过程。研究显示,自2024年以来,MLLM评估论文数量呈爆发式增长,OpenAI的GPT-4和Google的Gemini在83个基准测试中表现最佳。作者强调评估应被视为支持MLLM发展的关键学科,并讨论了当前评估方法的局限性和未来发展方向。

与问题相关的信息提取

关于多模态大语言模型(MLLMs)的评估基准,这篇论文提供了以下重要信息:

  1. 评估基准的全面分类:论文将180个MLLM评估基准分为五大类:

    • 感知与理解:评估模型接收和提取多模态数据特征的能力
    • 认知与推理:评估模型进行高级处理和复杂推理的能力
    • 特定领域应用:评估模型在医疗、自动驾驶、工业等特定领域的表现
    • 关键能力:评估模型处理复杂对话、遵循指令和避免幻觉等能力
    • 其他模态:评估模型处理视频、音频和3D点云等其他模态的能力
  2. MLLM架构:论文详细介绍了MLLM的三个主要组件:

    • 视觉编码器:将输入图像压缩为更紧凑的特征
    • 视觉-语言投影器:将视觉特征映射到文本特征空间
    • 大语言模型:作为核心组件,处理多模态输入并生成文本输出
  3. MLLM训练过程

    • 预训练阶段:对齐不同模态的嵌入空间,使语言模型能接受各种模态的输入
    • 指令微调阶段:通过特定任务指令进一步微调模型
  4. 评估趋势

    • MLLM评估论文数量呈爆发式增长
    • OpenAI的GPT-4和Google的Gemini在83个基准测试中表现最佳
    • 评估范围从基础的视觉感知到复杂的认知推理任务
  5. 评估的重要性

    • 帮助理解MLLM的优势和劣势
    • 为医疗、工业和自动驾驶等领域的应用提供指导
    • 确保MLLM的稳健性、安全性和可靠性
    • 评估用户友好特性,如处理长上下文和准确遵循指令的能力

论文强调评估应被视为支持MLLM发展的关键学科,并指出当前评估方法仍存在局限性,需要进一步探索未来发展方向。

相关网页链接及上下文

  1. https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey - 论文的GitHub仓库,提供更多详细信息。上下文:"For more details, please visit our GitHub repository: https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey."

  2. https://arxiv.org/html/2408.08632v1#bib.bib1 - 引用的GPT相关论文。上下文:"The impressive performance of LLMs such as GPT ouyang2022instructGPT has fueled optimism..."

  3. https://arxiv.org/html/2408.08632v1#bib.bib3 - GPT-4V相关论文。上下文:"This concept is further supported by the extraordinary success of proprietary models like OpenAI's GPT-4V achiam2023gpt4..."

  4. https://arxiv.org/html/2408.08632v1#bib.bib4 - Gemini相关论文。上下文:"...and Google's Geminiteam2023gemini."

  5. https://arxiv.org/html/2408.08632v1#bib.bib5 - SEED-Bench相关论文。上下文:"For example, the SEED-Bench li2023SEED-Bench illustrates that current MLLMs show weaker abilities in understanding spatial relationships..."

  6. https://arxiv.org/html/2408.08632v1#S1.F1 - 论文中的图1引用。上下文:"As illustrated in Figure 1..."

  7. https://arxiv.org/html/2408.08632v1#S2.F2 - 论文中的图2引用。上下文:"A diagram of the architecture and training process is illustrated in Figure. 2."

  8. https://arxiv.org/html/2408.08632v1#bib.bib185 - LLaVA相关论文。上下文:"...as outlined in liu2023llava."

  9. https://arxiv.org/html/2408.08632v1#bib.bib16 - LLaVA-Bench相关论文。上下文:"To advance research on visual-related tasks, LLaVA-Bench liu2023LLaVA-Bench..."

  10. https://arxiv.org/html/2408.08632v1#bib.bib197 - BLIP-2相关论文。上下文:"Several works, such as Qformer in BLIP-2 li2023blip2..."

相关图片及链接

  1. BMLLM统计图

  2. MLLM架构和训练过程图

我将继续搜索更多关于MLLMs评测基准的详细信息,特别是关注SEED-Bench这个被多次提及的重要评测基准。

网页解析

摘要

SEED-Bench是一个全面评估多模态大语言模型(MLLMs)能力的基准测试。该论文将MLLMs的能力分为L0到L4五个层级,基于它们接受和生成的模态类型。SEED-Bench包含24,000多个多项选择题,涵盖27个评估维度,测试范围从单图像理解到视频理解,再到图像生成能力。与现有基准不同,SEED-Bench采用多项选择题形式,无需人工或GPT干预评估,提供客观高效的评估方法。研究团队评估了22个开源MLLMs,发现即使表现最好的模型在L1能力层级(图像和文本理解)上也仅达到60%的准确率,在L2层级(交错图像-文本理解)表现更差,而目前只有少数模型达到L3层级(图像和文本生成)能力。该基准测试揭示了现有MLLMs的局限性,为未来研究提供了方向。

与问题相关的信息提取

SEED-Bench是一个全面评估多模态大语言模型(MLLMs)能力的基准测试,具有以下特点和创新点:

  1. 层级化能力评估框架:将MLLMs的能力分为L0到L4五个层级:

    • L0:基于文本输入生成文本(基础LLM能力)
    • L1:理解固定格式的多模态输入(图像/多图像/视频+文本)
    • L2:理解开放形式的交错图像-文本输入
    • L3:能够生成文本和图像
    • L4:能够处理和生成开放形式的交错图像-文本内容
  2. 全面的评估维度:包含27个评估维度,分为三部分:

    • 第一部分(L1能力):包括单图像理解、多图像理解和视频理解
    • 第二部分(L2能力):评估交错图像-文本理解能力
    • 第三部分(L3能力):评估图像生成能力
  3. 大规模高质量数据集:包含24,000多个多项选择题,是MME的10倍大,MMBench的8倍大,所有问题都有准确的人工标注答案。

  4. 客观评估方法:采用多项选择题形式(A/B/C/D选项),无需人工或GPT干预评估,提供客观高效的评估方法。

  5. 问题生成方法:采用三种方法生成多项选择题:

    • 利用基础模型的复杂管道
    • 改编现有数据集
    • 结合人工创建和GPT辅助
  6. 评估结果与发现

    • 现有MLLMs在L1能力层级上尚未达到天花板,最佳模型仅达到60%准确率
    • MLLMs在图表理解和视觉数学等维度表现较差
    • 在L2能力层级的表现比L1更差,说明理解自由形式的交错图像-文本输入更具挑战性
    • 目前只有少数MLLMs达到L3能力层级,能够输出多模态内容
    • 统一图像和文本生成的通用MLLM仍有待探索
  7. 与现有基准的比较:SEED-Bench是首个提供MLLMs层级化评估的基准测试,覆盖范围更广,数据规模更大,评估方法更客观。

这个基准测试对于理解当前MLLMs的能力边界和局限性非常有价值,为未来研究提供了明确的路线图。

相关网页链接

网页中没有提供可点击的链接,但文中提到了项目的GitHub链接:https://github.com/AILab-CVC/SEED-Bench

相关图片提取

  1. 图片1

    • Title: 多模态大语言模型能力层级和评估维度概览图
    • Content: 左侧展示了MLLMs从L0到L4的层级能力金字塔,右侧展示了SEED-Bench的27个评估维度,分为三个部分
    • Source: 论文作者
    • Link: 未知
  2. 图片2

    • Title: SEED-Bench中多图像和视频输入的评估样例
    • Content: 展示了包括行为识别、行为预测、过程理解、差异发现、表情理解和全局视频理解等维度的测试样例
    • Source: 论文作者
    • Link: 未知
  3. 图片3

    • Title: SEED-Bench中交错图像-文本分析和图像生成评估样例
    • Content: 展示了上下文描述、交错图像-文本分析、文本到图像生成、下一图像预测和文本-图像创建等维度的测试样例
    • Source: 论文作者
    • Link: 未知
  4. 表格1

    • Title: 现有MLLM基准测试比较表
    • Content: 比较了不同MLLM基准测试的特点,包括视觉模态、评估层级、问题数量、答案类型等
    • Source: 论文作者
    • Link: 未知

已掌握的信息

  1. MLLM评估基准的总体分类:

    • 一篇核心综述论文 "A Survey on Benchmarks of Multimodal Large Language Models" (arXiv:2408.08632v1) 提供了对180个MLLM评估基准的全面回顾,并将它们分为五个主要类别:(1)感知与理解,(2)认知与推理,(3)特定领域应用,(4)关键能力,以及(5)其他模态。
      • 来源: Observation from url_qa on https://arxiv.org/html/2408.08632v1
      • 原文片段: "This paper presents a comprehensive review of 180 benchmarks and evaluation for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning, (3)specific domains, (4)key capabilities, and (5)other modalities."
    • 该论文还指出了MLLM评估研究的快速增长趋势,并提及OpenAI的GPT-4和Google的Gemini在众多基准测试中表现突出。
      • 来源: Observation from url_qa on https://arxiv.org/html/2408.08632v1
      • 原文片段: "自2024年以来,MLLM评估论文数量呈爆发式增长,OpenAI的GPT-4和Google的Gemini在83个基准测试中表现最佳。"
    • 论文强调了评估在MLLM发展中的关键作用,包括理解模型优劣、指导应用、确保模型稳健性、安全性与可靠性。
      • 来源: Observation from url_qa on https://arxiv.org/html/2408.08632v1
      • 原文片段: "评估的重要性:帮助理解MLLM的优势和劣势;为医疗、工业和自动驾驶等领域的应用提供指导;确保MLLM的稳健性、安全性和可靠性..."
  2. 具体的MLLM评测基准 - SEED-Bench:

    • SEED-Bench是一个用于全面评估MLLMs能力的基准,它提出了一个从L0到L4的五级能力层级框架。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "SEED-Bench是一个全面评估多模态大语言模型(MLLMs)能力的基准测试。该论文将MLLMs的能力分为L0到L4五个层级..."
    • SEED-Bench包含超过24,000个多项选择题,覆盖27个评估维度,测试范围从单图像理解、多图像理解、视频理解到图像生成能力。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "SEED-Bench包含24,000多个多项选择题,涵盖27个评估维度,测试范围从单图像理解到视频理解,再到图像生成能力。"
    • 该基准采用多项选择题形式,旨在提供客观高效的评估,无需人工或GPT辅助评估。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "与现有基准不同,SEED-Bench采用多项选择题形式,无需人工或GPT干预评估,提供客观高效的评估方法。"
    • 评估结果显示,现有MLLMs在L1(图像和文本理解)和L2(交错图像-文本理解)能力层级上仍有较大提升空间,L3(图像和文本生成)能力模型较少。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "研究团队评估了22个开源MLLMs,发现即使表现最好的模型在L1能力层级(图像和文本理解)上也仅达到60%的准确率,在L2层级(交错图像-文本理解)表现更差,而目前只有少数模型达到L3层级(图像和文本生成)能力。"
  3. 其他提及的MLLM评测相关信息:

    • 搜索结果中提及了多个其他评测基准或相关研究,如 MMBench, MME, LLaVA-Bench, MileBench, SEED-Bench-2-Plus, II-Bench。
      • 来源: Observation from search_web (query: Multimodal Large Language Models benchmarks evaluation 2024 survey) and Observation from search_web (query: MLLMs benchmarks evaluation metrics visual language models)
    • 提及了评估指标如BLEU, ROUGE, METEOR。
      • 来源: Observation from search_web (query: Multimodal Large Language Models benchmarks evaluation 2024 survey) - CSDN snippet: "另外,为了评估模型生成文本或图像的能力,广泛采用了如BLEU、ROUGE和METEOR[185],[186]等指标。"
    • 强调了对长上下文、多图像任务、文本丰富视觉理解、高阶感知能力等特定能力的评估需求。
      • 来源: Observation from search_web (query: Multimodal Large Language Models benchmarks evaluation 2024 survey) - Sohu article on MileBench, CSDN article on SEED-Bench-2-Plus, Zhiyuan Community article on II-Bench.

行动计划

  1. 深化对核心综述论文的理解与信息提取

  2. 系统性梳理主流图文MLLM评测基准

    • 针对用户明确提出的“图文大模型”的benchmarks and evaluation,识别并整理一系列主流和新兴的图文评测基准。除了已知的SEED-Bench,还需关注如VQA (e.g., VQA v2, GQA, OK-VQA), Image Captioning (e.g., COCO Caption, NoCaps), Visual Reasoning (e.g., NLVR2, VCR), Image-Text Retrieval (e.g., COCO, Flickr30k), OCR-based VQA (e.g., TextVQA, DocVQA, ST-VQA), Multimodal Dialogue (e.g., VisDial), 以及更综合性的基准如MMBench, MME, LLaVA-Bench等。
    • 对每个重要的图文评测基准,收集并组织以下信息:
      • 提出背景与目标:为何提出该基准,旨在评估模型的哪些特定图文能力。
      • 任务类型:如视觉问答、图像/视频描述、图文检索、视觉推理、多模态对话、OCR、图表理解等。
      • 数据集构成:数据来源、规模、标注方式、样本示例。
      • 评估指标:该基准主要采用的自动化评估指标(如Accuracy, BLEU, ROUGE, CIDEr, METEOR, SPICE, VQA Score, ANLS, F1-score等)及其计算方法和侧重点。
      • 特点与优势:该基准在评估模型能力方面的独特之处。
      • 局限性与挑战:该基准可能存在的不足或未能覆盖的方面。
    • 信息来源:优先查找各基准的原始论文、官方网站/GitHub页面、以及高质量的学术综述。
  3. 深入研究图文MLLM的评估方法与指标体系

    • 定量评估:详细梳理和解释图文MLLM领域常用的各类自动化评估指标,包括其数学定义、适用场景、优缺点。例如,针对生成任务的BLEU, ROUGE, CIDEr, METEOR, SPICE;针对理解/分类任务的Accuracy, F1-score, Exact Match;针对VQA的VQA Score;针对检索任务的Recall@K, mAP等。
    • 定性评估:探讨人工评估在图文MLLM评测中的角色和方法,如评估标准的设计(流畅性、相关性、准确性、一致性、安全性等)、错误类型分析、案例研究等。比较人工评估与自动化评估的优劣。
    • 评估维度:总结图文MLLM需要评估的关键能力维度,例如:
      • 视觉感知与定位 (Object recognition, attribute identification, spatial relationship)
      • 文本理解与生成 (Instruction following, text generation quality)
      • 跨模态对齐与融合 (Image-text matching, cross-modal understanding)
      • 视觉推理 (Commonsense reasoning, logical deduction based on visual input)
      • OCR与文本密集型场景理解 (Text recognition in images, document understanding, chart interpretation)
      • 组合泛化能力 (Generalization to novel concepts/compositions)
      • 鲁棒性 (To noise, adversarial attacks, out-of-distribution samples)
      • 可信赖AI属性 (Bias, fairness, safety, hallucination detection, interpretability)
      • 效率 (Inference speed, computational cost)
    • 信息来源:相关的学术论文、评测工具的文档、以及领域内专家的评述。
  4. 关注新兴评测基准和评估趋势(特别是2024-2025年)

    • 调研近年来新出现的、针对图文MLLM特定挑战或能力的评测基准,例如针对长上下文理解 (e.g., MileBench)、文本丰富场景 (e.g., SEED-Bench-2-Plus)、高阶感知 (e.g., II-Bench)、交互式评估、多轮对话评估、以及对模型“幻觉”和安全性的专门评测。
    • 分析当前图文MLLM评测领域面临的主要挑战和未来可能的发展方向,如如何设计更全面、公平、高效、接近人类判断的评测体系。
    • 信息来源:最新的顶级会议论文 (CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, ACL, EMNLP等)、arXiv预印本、以及权威的技术博客和报告。
  5. 构建报告框架并撰写研究报告

    • 设计一个逻辑清晰、内容全面的报告结构。建议包含以下部分:
      • 引言:MLLM及图文MLLM的背景、重要性、评测的意义与挑战。
      • 图文MLLM评测基准概览:对主流和新兴的图文评测基准进行分类介绍(可按任务类型、评估能力维度等方式组织)。
      • 重点图文评测基准详解:选取若干有代表性的图文基准进行详细分析(如SEED-Bench, MMBench, VQA v2, COCO Captioning等),涵盖其任务、数据、指标、特点和局限。
      • 图文MLLM评估方法与指标体系:详细阐述定量评估指标和定性评估方法,以及关键的评估维度。
      • 新兴评测趋势与前沿进展:介绍最新的评测基准、方法和关注点。
      • 挑战与未来展望:总结当前图文MLLM评测面临的挑战,并展望未来的发展方向。
      • 结论
      • 参考文献
    • 基于收集和分析的信息,填充报告的各个部分,确保信息的准确性、来源的可靠性,并进行清晰、专业的表述。

现在,我将继续搜索更多关于图文MLLMs评测基准的信息,特别是一些重要的基准如MMBench、MME等。

网页解析

我将根据您的要求分析这个网页内容:

1. 网页内容摘要(300字左右)

这个网页是一个名为"Awesome-Multimodal-Large-Language-Models"的GitHub仓库,专注于多模态大语言模型(MLLMs)的最新进展。该仓库由BradyFU维护,包含了MLLMs领域的综合性资源集合。网页首先展示了作者自己的MLLM相关工作,包括一篇全面的MLLMs综述论文、VITA系列模型(包括VITA-1.5、Long-VITA等)、MM-RLHF(多模态RLHF对齐方法)、MME-Survey(多模态LLM评估综述)、Video-MME(首个全面的视频分析MLLM评估基准)、MME(多模态大语言模型评估基准)以及Woodpecker(多模态大语言模型幻觉修正工具)。

网页的主体部分分为"Awesome Papers"和"Awesome Datasets"两大板块。"Awesome Papers"部分按主题分类,包括多模态指令微调、多模态幻觉、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型、评估、多模态RLHF等。"Awesome Datasets"部分则包含了对齐预训练数据集、多模态指令微调数据集、上下文学习数据集、多模态思维链数据集、多模态RLHF数据集、评估基准等。每个论文条目通常包含标题、发表场所、日期、代码链接和演示链接等信息,并标注了GitHub星标数量。

2. 与多模态大语言模型相关的信息提取

这个网页提供了多模态大语言模型(MLLMs)领域的全面信息,是该领域的重要资源库。以下是关键信息:

  1. MLLMs的定义与综述:网页提供了一篇全面的MLLMs综述论文,这是该领域的首个综合性综述。

  2. 主要研究方向

    • 多模态指令微调:如BLIP3-o、Seed1.5-VL、VITA系列、InternVL3、Kimi-VL、Qwen2.5系列等
    • 多模态幻觉:如Woodpecker项目,这是首个修正MLLMs幻觉的工作
    • 多模态上下文学习、思维链、LLM辅助视觉推理等研究方向
    • 多模态RLHF:如MM-RLHF项目,专注于使用人类偏好对MLLMs进行对齐
  3. 重要模型

    • VITA系列:包括VITA-1.5(更强大的实时版本)、Long-VITA(可处理超过4K帧或100万视觉标记)
    • 商业模型:GPT-4.1、GPT-4o、Llama 4系列、Qwen2.5-Omni/VL、Baichuan-Omni-1.5等
    • 开源模型:LlamaV-o1、InternVL3、Kimi-VL等
  4. 评估基准

    • MME:MLLMs的综合评估基准
    • Video-MME:首个全面的视频分析MLLM评估基准,包含短期(<2分钟)、中期(4-15分钟)和长期(30-60分钟)视频
    • MME-Survey:由MME、MMBench和LLaVA团队联合推出的多模态LLM评估综述
  5. 数据集分类

    • 对齐预训练数据集
    • 多模态指令微调数据集
    • 上下文学习数据集
    • 多模态思维链数据集
    • 多模态RLHF数据集
    • 评估基准数据集
  6. 最新趋势

    • 长上下文多模态处理:如Long-VITA能处理超过100万视觉标记
    • 多模态RLHF对齐:使用人类偏好对模型进行对齐
    • 幻觉修正:如Woodpecker项目
    • 全面的评估基准:特别是视频领域的Video-MME

3. 与问题相关性最高的前10条网页链接

  1. A Survey on Multimodal Large Language Models - 首个MLLMs综合性综述论文链接
  2. VITA: Towards Open-Source Interactive Omni Multimodal LLM - VITA项目GitHub链接
  3. Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens - Long-VITA项目GitHub链接
  4. MM-RLHF: The Next Step Forward in Multimodal LLM Alignment - 多模态RLHF项目链接
  5. MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs - 多模态LLM评估综述链接
  6. Video-MME: The First-Ever Comprehensive Evaluation Benchmark - Video-MME项目页面链接
  7. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models - MME评估基准论文链接
  8. Woodpecker: Hallucination Correction for Multimodal Large Language Models - Woodpecker项目GitHub链接
  9. Awesome Papers - 精选论文集合链接
  10. Awesome Datasets - 精选数据集集合链接

4. 对回答问题有帮助的图片及其链接

  1. MiG_logo.jpg

  2. vita-1.5.jpg

  3. longvita.jpg

  4. mm-rlhf.jpg

  5. mme-survey.jpg

我看到这个GitHub仓库提供了MLLMs领域的综合资源,但并没有提供我们需要的关于MMBench评测基准的详细信息。让我继续搜索MMBench的具体内容。

搜索

Search

MMBench multimodal large language models evaluation benchmark details
ai-tab.cn
当视频包含50+镜头时,启用分块推理模式,避免显存溢出(需6*A40显卡支持)。答案校准策略 :使用 GPT-4裁判模型 替代传统评分规则,减少人工标注偏差。访问地址立即体验 : MMBench官网
凤凰网
MMBench榜单,MMBench是上海AI lab和南洋理工大学联合推出的基于ChatGPT的全方位多模能力评测体系MME榜单,MME为腾讯优...
AI工具集
MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准...
github.com
MMBench is a collection of benchmarks to evaluate the multi-modal understanding capability of large vision language models (LVLMs).
CSDN技术社区
关注公众号,发现CV技术之美本篇分享 EMNLP 2024 论文MIBench: Evaluating Multimodal Large Language Models over Multiple Images,阿里通义实验室提出MLLM多图能力评...
网易
Large Vision-Language Models (LVLMs) have demonstrated outstanding performance in various general multi...
CSDN技术社区
HyperGAI研究团队自豪地宣布推出HPT——新一代领先的多模态大型语言模型(Multimodal Large Language Model, Multimodal LLM)。作为人工通用智能(Artificial General Intelligence, AGI)构建的基石,HPT跨入多模态理解的新时代奠定了基础。与传统的仅文本LLM不同,多模态LLM旨在理...
CSDN技术社区
MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。MLLM定义...
View all 16 sources

现在我将查看MMBench的论文,获取更详细的信息。

网页解析

MMBench论文摘要与分析

1. 网页内容摘要

本网页展示了一篇题为"MMBench"的学术论文信息,该论文已被ECCV2024接受为口头报告。论文主要介绍了一个用于评估大型视觉-语言模型(VLMs)多模态能力的双语基准测试。MMBench旨在解决现有评估方法的局限性:传统基准如VQAv2或COCO Caption提供定量性能测量但缺乏细粒度能力评估;而主观基准如OwlEval虽然全面但依赖人工评估,不可扩展且可能存在偏见。

MMBench的主要特点包括:1)经过精心策划的评估问题和能力测试,数量和多样性超过现有类似基准;2)引入严格的CircularEval策略,并利用大型语言模型将自由形式预测转换为预定义选择,提高评估准确性;3)包含英文和中文版本的多项选择题,实现VLMs在双语环境下的公平比较。该基准测试已集成到VLMEvalKit中,旨在帮助研究社区更好地评估模型并促进该领域的发展。

论文由多位作者共同完成,包括Yuan Liu、Haodong Duan等,最初于2023年7月12日提交,目前已更新至第5个版本(2024年8月20日)。

2. 与问题相关的信息提取

网页内容主要介绍了MMBench,这是一个专为评估大型视觉-语言模型(VLMs)多模态能力而设计的双语基准测试。以下是与多模态评估相关的关键信息:

  1. 现有评估方法的局限性

    • 传统基准测试如VQAv2或COCO Caption提供定量性能测量,但缺乏细粒度能力评估和稳健的评估指标
    • 主观基准测试如OwlEval虽然全面但依赖人工评估,不可扩展且可能存在显著偏见
  2. MMBench的创新特点

    • 精心策划的质量控制方案,在评估问题数量和多样性方面超过现有类似基准
    • 引入严格的CircularEval策略,将自由形式预测转换为预定义选择,提高评估准确性
    • 包含英文和中文版本的多项选择题,实现VLMs在双语环境下的公平比较
  3. 评估目标:提供一个系统设计的客观基准,用于对视觉-语言模型进行稳健和全面的评估

  4. 实用价值:MMBench已集成到VLMEvalKit中(https://github.com/open-compass/VLMEvalKit),旨在帮助研究社区更好地评估模型并促进该领域的发展

  5. 学术认可:该论文已被ECCV2024接受为口头报告,表明其在学术界的重要性和创新性

  6. 版本迭代:论文从2023年7月首次提交以来已更新至第5版(2024年8月),显示研究团队对该基准测试的持续改进和完善

这项研究对于多模态模型评估领域具有重要意义,提供了一种更全面、客观和可扩展的评估方法,有助于推动视觉-语言模型的发展和进步。

3. 相关网页链接

  1. Yuan Liu作者页面 - 论文第一作者的搜索页面
  2. Haodong Duan作者页面 - 论文作者的搜索页面
  3. 查看PDF - 论文PDF版本链接
  4. HTML版本(实验性) - 论文HTML版本链接
  5. VLMEvalKit GitHub链接 - MMBench评估代码集成的工具包
  6. arXiv:2307.06281 - 论文arXiv引用链接
  7. arXiv:2307.06281v5 - 论文当前版本的arXiv引用链接
  8. DOI链接 - 论文的DOI永久链接
  9. v1版本 - 论文第一个版本链接
  10. v4版本 - 论文第四个版本链接

4. 相关图片

无与问题相关的图片内容在网页中显示。

我需要获取更多关于MMBench和MME这两个重要的MLLM评测基准的具体信息。让我继续搜索MME的详细内容。

搜索

Search

MME multimodal large language models evaluation benchmark details
CSDN技术社区
在本节中,我们对 MME 基准进行了大量实验,以评估总共 12 个开源 MLLM,包括 BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、LLaMA-Adapter-v2、Otter、Multimodal-GPT...
稀土掘金
多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和...
arxiv.org
Multimodal Large Language Model (MLLM) relies on the powerful LLM to perform multimodal tasks, showing amazing emergent abilities in recent ...
CSDN博客
在本文中,我们填补了这一空白,提出了第一个M LL ME,它测量总共14 个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露,指令 ...
arxiv.org
com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation .1 IntroductionThe thriving of Large Language ...
CSDN技术社区
跨模态注意力(Cross-Modal Attention): 使用Transformer的注意力机制,让不同模态的特征相互交互。原理:以文本向量为Query,图像向量为Key和Value,计算注意力权重: Attention(Q,K,V)=softmax(d k ​ ​ Q K T ​)V, 其中,Q 是文本向量,K,V 是图像向量,d k ​ 是向量维度。优点:捕获模态间的深层语义关系。混合融合:结合多种融合方式,灵活适应任务需求。从文本LLMs扩展: 文本LLMs的Transforme...
CSDN技术社区
多模态大型语言模型(Multimodal Large Language Models,MLLM)的出现是建立在大型语言模型(Large Language Models,LLM)和大型视觉模型(Large Vision Models,LVM)领域不断突破的基础上的。随着 LLM 在语言理解和推理能力上的逐步增强,指令微调、上下文学习和思维链工具的应用...
arxiv.org
♠ Project Leader  † Corresponding Author  https://mme-realworld.github.io/AbstractComprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research c...
View all 14 sources

已掌握的信息

  1. MLLM评估基准的总体分类框架:

    • 一篇核心综述论文 "A Survey on Benchmarks of Multimodal Large Language Models" (arXiv:2408.08632v1) 将180个MLLM评估基准分为五个主要类别:(1)感知与理解,(2)认知与推理,(3)特定领域应用,(4)关键能力,以及(5)其他模态。
      • 来源: Observation from url_qa on https://arxiv.org/html/2408.08632v1
      • 原文片段: "This paper presents a comprehensive review of 180 benchmarks and evaluation for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning, (3)specific domains, (4)key capabilities, and (5)other modalities."
    • 该综述还指出,自2024年以来MLLM评估相关的论文数量激增,OpenAI的GPT-4和Google的Gemini在多个基准测试中表现领先。
      • 来源: Observation from url_qa on https://arxiv.org/html/2408.08632v1
      • 原文片段: "自2024年以来,MLLM评估论文数量呈爆发式增长,OpenAI的GPT-4和Google的Gemini在83个基准测试中表现最佳。"
  2. SEED-Bench评测基准详情:

    • SEED-Bench是一个全面的MLLM评估基准,提出了从L0(基础LLM能力)到L4(处理和生成开放形式的交错图文内容)的五级能力层级框架。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "SEED-Bench是一个全面评估多模态大语言模型(MLLMs)能力的基准测试。该论文将MLLMs的能力分为L0到L4五个层级..."
    • 它包含超过24,000个多项选择题,覆盖27个评估维度,包括单图像理解、多图像理解、视频理解和图像生成能力。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "SEED-Bench包含24,000多个多项选择题,涵盖27个评估维度,测试范围从单图像理解到视频理解,再到图像生成能力。"
    • SEED-Bench采用多项选择题形式,旨在提供客观高效的评估,无需人工或GPT辅助。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "与现有基准不同,SEED-Bench采用多项选择题形式,无需人工或GPT干预评估,提供客观高效的评估方法。"
  3. MMBench评测基准初步信息:

    • MMBench是一个旨在评估大型视觉-语言模型(VLMs)多模态能力的双语(中/英文)基准。
      • 来源: Observation from url_qa on https://arxiv.org/abs/2307.06281
      • 原文片段: "MMBench: Is Your Multi-modal Model an All-around Player?" and "包含英文和中文版本的多项选择题,实现VLMs在双语环境下的公平比较。"
    • 它针对传统基准缺乏细粒度评估和主观基准不可扩展、存在偏见的问题,提出了精心策划的评估问题。
      • 来源: Observation from url_qa on https://arxiv.org/abs/2307.06281
      • 原文片段: "传统基准如VQAv2或COCO Caption提供定量性能测量但缺乏细粒度能力评估;而主观基准如OwlEval虽然全面但依赖人工评估,不可扩展且可能存在偏见。"
    • MMBench引入了CircularEval策略,并利用大型语言模型将自由形式的预测转换为预定义的选项,以提高评估的准确性和鲁棒性。
      • 来源: Observation from url_qa on https://arxiv.org/abs/2307.06281
      • 原文片段: "引入严格的CircularEval策略,并利用大型语言模型将自由形式预测转换为预定义选择,提高评估准确性"
    • MMBench已集成到VLMEvalKit (https://github.com/open-compass/VLMEvalKit)。
      • 来源: Observation from url_qa on https://arxiv.org/abs/2307.06281
      • 原文片段: "该基准测试已集成到VLMEvalKit中..."
  4. MME评测基准初步信息:

    • MME (Multimodal Model Evaluation) 是一个旨在全面评估MLLMs感知和认知能力的基准,包含14个子任务。
      • 来源: Observation from search_web (query: MME multimodal large language models evaluation benchmark details) - CSDN snippet: "在本文中,我们填补了这一空白,提出了第一个 M LL ME,它测量总共 14 个子任务的感知和认知能力。" and arXiv abstract: "It measures both perception and cognition abilities on a total of 14 subtasks."
    • 其指令-答案对均为人手设计,以避免公共数据集可能导致的数据泄露问题,并采用简洁的指令设计以公平比较不同MLLM。
      • 来源: Observation from search_web (query: MME multimodal large language models evaluation benchmark details) - CSDN snippet: "为了避免直接使用公共数据集进行评估可能导致的数据泄露,指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较 MLLM..."
    • MME的论文链接为 https://arxiv.org/abs/2306.13394。
      • 来源: Observation from search_web (query: MME multimodal large language models evaluation benchmark details) - arXiv result.
  5. 其他提及的图文MLLM评测相关资源:

    • 一个名为 "Awesome-Multimodal-Large-Language-Models" 的GitHub仓库 (https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models) 收集了MLLM领域的综述、模型、数据集和评估基准等资源。其中提及了MME、Video-MME (视频分析评估基准) 和 MME-Survey (多模态LLM评估综述)。
      • 来源: Observation from url_qa on https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
    • 搜索结果中还提及了 LLaVA-Bench, MileBench, SEED-Bench-2-Plus, II-Bench 等其他基准,以及BLEU, ROUGE, METEOR等评估指标。

行动计划

  1. 深入分析核心图文MLLM评测基准的细节

  2. 系统性梳理其他重要的图文MLLM评测基准

    • 基于已有的线索 (如综述论文、GitHub仓库),识别并调研其他被广泛应用或具有代表性的图文MLLM评测基准。重点关注以下类型的基准:
      • 视觉问答 (VQA): 例如 VQA v2, GQA, OK-VQA, TextVQA, DocVQA, ChartQA。
      • 图像/视频描述 (Image/Video Captioning): 例如 COCO Caption, NoCaps, VATEX。
      • 视觉推理 (Visual Reasoning): 例如 NLVR2, VCR, SNLI-VE。
      • 图文检索 (Image-Text Retrieval): 例如 COCO, Flickr30k。
      • 多模态对话 (Multimodal Dialogue): 例如 VisDial。
      • 综合性/新兴基准: 例如 LLaVA-Bench, MMBench-CN, CCBench, MIBench, MileBench, SEED-Bench-2-Plus, II-Bench等,了解它们各自的侧重点和创新之处。
    • 对每个梳理出的重要图文基准,记录其核心任务、数据集特点、评估指标、优势与局限性。信息来源主要是各基准的原始论文和官方网站/仓库。
  3. 归纳和总结图文MLLM的评估方法与指标体系

    • 评估方法学:总结当前图文MLLM评测中常用的方法论,包括自动化评估流程、人工评估的必要性与实施方案、以及结合两者的方法。
    • 评估指标:系统整理和解释图文MLLM评测中常用的各类定量评估指标,如准确率 (Accuracy)、F1分数、精确匹配 (Exact Match)、BLEU、ROUGE、CIDEr、METEOR、SPICE、VQA Score、ANLS (Average Normalized Levenshtein Similarity for OCR)、Recall@K、mAP等。阐述各指标的计算方式、适用场景及优缺点。
    • 评估维度:综合各个基准,提炼出评估图文MLLM能力的关键维度,例如:细粒度物体识别、属性理解、空间关系感知、OCR能力、图表和文档理解、视觉常识推理、组合泛化、指令遵循能力、生成内容的忠实度与流畅性、抗幻觉能力等。
  4. 分析新兴评测趋势、挑战与未来方向

    • 关注2024-2025年图文MLLM评测领域的最新进展,例如针对模型鲁棒性、安全性、公平性、可解释性、长上下文处理、交互式评估、以及对“世界模型”能力的评测探索。
    • 识别当前图文MLLM评测面临的主要挑战,如数据污染问题、评估成本问题、评估全面性问题、以及如何设计更接近人类综合判断的评测体系。
    • 展望未来图文MLLM评测可能的发展方向。信息来源主要是最新的学术会议论文、期刊文章、技术报告和专家观点。
  5. 构建全面的研究报告框架

    • 基于以上调研和分析,设计一份结构清晰、逻辑严谨的报告框架。主要章节可以包括:引言、图文MLLM评测基准概览(分类介绍)、重点图文评测基准详解、图文MLLM评估方法与指标体系、新兴评测趋势与挑战、总结与展望。
    • 在每个章节下规划具体的内容要点,确保报告的全面性和深度。

现在,我将深入了解MME评测基准的详细内容,这是一个重要的图文MLLM评估基准。

网页解析

多模态大语言模型评估基准MME

1. 网页内容摘要

本网页介绍了一篇题为"MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models"的学术论文。该论文提出了首个全面评估多模态大语言模型(MLLM)的基准测试MME。论文指出,尽管MLLM在近期研究中展现出惊人的能力,如基于图像写诗,但现有的案例研究难以全面反映MLLM的性能。MME基准测试通过14个子任务评估MLLM的感知和认知能力,所有指令-回答对的注释均为手动设计,以避免使用公共数据集可能带来的数据泄露问题。简洁的指令设计允许公平比较不同MLLM,而不必纠结于提示工程。研究团队已对30个先进MLLM进行了全面评估,结果表明现有MLLM仍有很大改进空间,并揭示了后续模型优化的潜在方向。项目数据和在线排行榜已在GitHub上发布。论文最初于2023年6月23日提交,最新版本(v4)于2024年3月17日更新。

2. 与多模态大语言模型评估相关的信息

该论文提出了名为MME(Multimodal Evaluation)的全面评估基准,专门用于评估多模态大语言模型(MLLM)的性能。以下是关键信息:

  1. 研究背景与动机

    • 多模态大语言模型依靠强大的LLM执行多模态任务,展现出惊人的能力
    • 现有的案例研究难以全面反映MLLM的性能,缺乏综合评估
    • MME填补了这一空白,提供首个全面的MLLM评估基准
  2. MME基准测试特点

    • 评估MLLM的感知和认知两方面能力
    • 包含14个子任务的综合测试
    • 所有指令-回答对的注释均为手动设计,避免直接使用公共数据集可能带来的数据泄露
    • 简洁的指令设计允许公平比较不同MLLM,无需复杂的提示工程
    • 便于进行量化统计分析
  3. 评估结果与意义

    • 已对30个先进的MLLM进行全面评估
    • 结果表明现有MLLM仍有很大的改进空间
    • 揭示了后续模型优化的潜在方向
  4. 资源获取

    • 项目页面和在线排行榜已在GitHub上发布
    • 提供了数据应用方式和评估方法
  5. 论文发展历程

    • 最初版本于2023年6月23日提交
    • 经过多次更新,最新版本(v4)于2024年3月17日发布
    • 文件大小从最初的7,770 KB减少到当前的6,979 KB,表明可能进行了内容优化

这项研究对于理解和改进多模态大语言模型具有重要意义,为研究人员提供了一个标准化的评估工具,有助于推动MLLM技术的发展和应用。

3. 相关网页链接

  1. View PDF - 论文PDF版本链接
  2. HTML (experimental) - 论文HTML实验版本链接
  3. https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation - 项目数据应用和在线排行榜
  4. https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models - 项目主页
  5. arXiv:2306.13394 - 论文arXiv引用链接
  6. arXiv:2306.13394v4 - 论文最新版本引用链接
  7. https://doi.org/10.48550/arXiv.2306.13394 - 论文DOI链接
  8. v1 - 论文第一版链接
  9. v2 - 论文第二版链接
  10. v3 - 论文第三版链接

4. 无相关图片

网页中没有显示与多模态大语言模型评估相关的图片内容。

我需要获取MME评测基准的更详细信息,特别是其14个子任务的具体内容。让我查看MME的GitHub仓库。

网页解析

我要探究的问题是:多模态大语言模型的评估基准

1. 网页内容摘要

本网页介绍了MME(Multimodal Large Language Model Evaluation benchmark),这是一个全面评估多模态大语言模型(MLLM)的基准测试。MME测量模型在14个子任务上的感知和认知能力,所有指令-答案对都是手动设计的,以避免数据泄露问题。网页展示了MME系列工作,包括原始MME基准、MME-Survey综述、Video-MME视频分析基准和MME-RealWorld真实场景基准。

网页还提供了最新的研究动态,记录了2023年6月至2024年6月期间各种模型加入MME评测的情况。最重要的部分是公开可用模型的评估结果和排行榜,展示了各模型在感知和认知两大类别下的表现。感知类别包括存在性、计数、位置、颜色、海报、名人、场景、地标、艺术品和OCR等10个子任务;认知类别包括常识推理、数值计算、文本翻译和代码推理4个子任务。网页还提供了评估工具下载链接和相关论文引用信息。

2. 与多模态大语言模型评估基准相关的信息

MME是首个全面评估多模态大语言模型的基准测试,专注于测量模型的感知和认知能力。其主要特点包括:

  1. 评估范围:MME涵盖14个子任务,分为感知和认知两大类。感知类包括10个子任务:存在性、计数、位置、颜色、海报、名人、场景、地标、艺术品和OCR;认知类包括4个子任务:常识推理、数值计算、文本翻译和代码推理。

  2. 数据设计:为避免使用公共数据集可能导致的数据泄露问题,MME的所有指令-答案对都是手动设计的。这种简洁的指令设计允许公平比较不同的MLLM,而不必纠结于提示工程。

  3. 评估方法:MME提供了自动化评估脚本,用于计算模型得分。每个子任务满分为200分,感知类总分2000分,认知类总分800分。

  4. 扩展工作:MME已发展为一系列评估工作,包括:

    • 原始MME基准:全面评估MLLM的基础能力
    • MME-Survey:由MME、MMBench和LLaVA团队联合推出的MLLM评估综述
    • Video-MME:首个全面评估MLLM在视频分析中表现的基准,适用于图像MLLM和视频MLLM
    • MME-RealWorld:测试MLLM在高分辨率真实场景中的表现
  5. 模型排名:网页展示了最新的模型排名,在感知任务中,Qwen-VL-Max、ChatTruth-7B和InternLM-XComposer2-VL位居前三;在认知任务中,GPT-4V表现最佳。

  6. 持续更新:MME团队持续追踪和评估新发布的MLLM,网页上的新闻部分记录了从2023年6月至2024年6月期间各种模型加入评测的情况。

  7. 资源获取:网页提供了MME基准数据集的下载链接、评估工具和相关论文的引用信息。

这一基准测试为研究人员和开发者提供了一个标准化的方法来评估和比较不同的多模态大语言模型,有助于推动MLLM技术的进步和优化方向的确定。

3. 相关性最高的前10条网页链接

  1. Paper - MME论文链接,提供了关于这个评估基准的详细介绍
  2. Download - MME基准测试数据集的下载链接
  3. Eval Tool - MME评估工具的下载链接
  4. Citation - MME论文的引用信息
  5. Paper - "A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise"论文链接
  6. Unavailable Version - 不可用模型版本的评估结果链接
  7. Perception - 感知类别评估结果的详细链接
  8. Cognition - 认知类别评估结果的详细链接
  9. Existence - 存在性子任务的评估结果链接
  10. Count - 计数子任务的评估结果链接

4. 有帮助的图片及链接

  1. 图片标题: MME数据集概览
    内容: 展示MME评估基准中使用的数据集结构和样例
    来源: BradyFU/Awesome-Multimodal-Large-Language-Models
    链接: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/raw/Evaluation/images/dataset.png

  2. 图片标题: MME-Survey概览
    内容: 多模态LLM评估综述的封面或概览图
    来源: BradyFU/Awesome-Multimodal-Large-Language-Models
    链接: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/raw/main/images/mme-survey.jpg

  3. 图片标题: Video-MME概览
    内容: 展示Video-MME评估基准的结构和特点
    来源: BradyFU/Awesome-Multimodal-Large-Language-Models
    链接: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/raw/Evaluation/images/videomme.jpg

  4. 图片标题: MME-RealWorld标志
    内容: MME-RealWorld项目的标志或概览图
    来源: BradyFU/Awesome-Multimodal-Large-Language-Models
    链接: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/raw/Evaluation/images/name_logo.jpg

  5. 图片标题: 公开可用模型的评估结果图表
    内容: 展示各个公开可用模型在MME基准上的评估结果
    来源: BradyFU/Awesome-Multimodal-Large-Language-Models
    链接: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/raw/Evaluation/images/evaluation_chart_public_0128.png

  6. 图片标题: 模型能力分类图
    内容: 展示不同模型在各个能力维度上的分类或比较
    来源: BradyFU/Awesome-Multimodal-Large-Language-Models
    链接: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/raw/Evaluation/images/xmind.png

我现在对MME评测基准有了更清晰的理解。让我继续搜索其他重要的MLLM评测基准,特别是一些最新的评测方法。

搜索

Search

MLLM evaluation benchmarks comparison SEED-Bench MMBench MME 2024
中国科学院知识服务平台
1.ChinaXiv:202201.00001 下载全文 自伤行为的神经生理机制及共病障碍比较 分类:心理学>>心理学其他学科 提交时间:2021-12-31 邓洵 陈宁 王单单 赵欢欢 贺雯 摘要:自伤行为是危害公众心理健康的重大隐患。综合自伤行为的新近研究成果,情绪脑区、控制脑区、疼痛脑区、奖赏脑区、阿片类系统和多巴胺系统以及特定基因的异常共同参与了自伤行为。将自伤行为与自杀、成瘾、进食障碍和抑郁障碍进行比较,发现自伤行为与其共病障碍存在部分相似的发生机制。在此基础上尝试构建了自伤行为的认知...
人人文库
scorecard 综合评价卡20 Basic skills 基本技能21 Behavior-based program 行为改变计划22 Behavior modeling 行为模拟23 Benchmarks 基准24 Benchmarking 评判25 Benefit...
原创力文档
Position Class Conversion Tab 职位评估转换表 Evaluation Process 评估的过程 1.Select benchmark positions 选择标准职位 2.Gather data on benchmark positions 收集标准职位的数据 3.Select position analysts 选择评估分析人员 4.Form evaluation committee 组...
期刊界
北京勤云科技发展有限公司旗下网站 最专业的期刊搜索引擎 国内最大的二次文献数据库 期刊界 OA 免费获取文献 All Journals 搜尽天下杂志 传播学术成功
人人文库
精选优质文档-倾情为你奉上人力资源类词语Acceptability 可接受性 Achievement tests 成就测试 Action plan 行动计划 Action steps 行动步骤 Adventure learning 探险学习法 Adverse impact 负面影响 Agency shop 工会代理制 Alternative dispute resolution (ADR) 建设性争议解决方法 Analytic approach 分析法 Appraisal politics 评价政治学 Ap...
CSDN技术社区
comparison.png 98KB clear.py 67B README.md 24KB scripts zero3_offload.json 1KB zero3.json 801B cambrian finetune_cambrian_8b.sh 2KB pretrain_cambrian_13b.sh 2KB pretrain_cambrian_34b.sh 2KB pretrain_cambrian_8b.sh 2KB finetune_cambrian_34b.sh 2KB ...
movementsmatter.org.au
Direct Comparison MethodUsed for most residential and standard commercial properties.The valuer compares your property to recently sold similar properties in the area, adjusting for condition, features, and location.Capitalisation of IncomeIdeal f...
人人文库
American Finance Association Measuring Mutual Fund Performance with Characteristic Based Benchmarks Author s Kent Daniel Mark Grinblatt Sheridan Titman and Russ Wermers Reviewed work s Source The Journal of Finance Vol 52 No 3 Papers and ...
View all 16 sources

我需要获取更多关于MLLM评测基准的比较信息。让我查看一下刚才搜索结果中提到的HKUST-LongGroup/Awesome-MLLM-Benchmarks GitHub仓库,这可能包含了多个基准的比较信息。

网页解析

摘要

这个网页是一个关于多模态基准测试(Multimodal Benchmarks)的资源列表,旨在跟踪和汇总该领域的最新研究论文和开源项目。网页内容主要分为四个部分:理解基准(Understanding Benchmarks)、推理基准(Reasoning Benchmarks)、生成基准(Generation Benchmarks)和应用基准(Application Benchmarks),但网页内容中主要展示了"理解基准"部分的10个项目。每个基准测试项目包含发布日期、所属机构、摘要、论文链接和代码/项目链接等信息。这些基准测试涵盖了多模态大型AI模型的各种能力评估,包括视觉-语言理解、多图像理解、OCR能力、视频感知、上下文对象检测等。网页还提供了引用该调查的Bibtex格式,表明这是一篇名为《A Survey on Multimodal Benchmarks: In the Era of Large AI Models》的论文相关资源。

与多模态基准测试相关的信息

这个网页提供了关于多模态基准测试的全面资源列表,特别关注大型AI模型时代的评估方法。以下是关键信息:

  1. 资源分类:网页将多模态基准测试分为四大类:理解基准、推理基准、生成基准和应用基准,反映了多模态模型评估的不同维度。

  2. 理解基准详情:网页详细介绍了10个理解基准测试项目:

    • EQBEN:评估视觉-语言基础模型的等变相似性,发布于2023年3月
    • MMC4:一个开放的、十亿级规模的图像与文本交错语料库,发布于2023年4月
    • OwlEval:评估mPLUG-Owl模型的视觉相关指令能力,发布于2023年4月
    • OCRBench:评估大型多模态模型在文本相关视觉任务中的能力,发布于2023年5月
    • GVT-Bench:研究适合大型语言模型的视觉标记器特性,发布于2023年5月
    • PerceptionTest:用于多模态视频模型的诊断基准,发布于2023年5月
    • CODE:评估多模态大型语言模型的上下文对象检测能力,发布于2023年5月
    • Lvlm-ehub:大型视觉-语言模型的综合评估基准,发布于2023年6月
    • LAMM:语言辅助多模态指令调优数据集、框架和基准,发布于2023年6月
    • MME:多模态大型语言模型的综合评估基准,发布于2023年6月
  3. 研究趋势:从发布日期看,所有列出的基准测试都发布于2023年3月至6月间,表明这是一个快速发展的研究领域。

  4. 主要研究机构:参与这些基准测试开发的机构包括南洋理工大学、加州大学、DAMO学院、华中科技大学、新加坡国立大学、DeepMind、上海AI实验室和腾讯优图实验室等。

  5. 评估重点:这些基准测试关注的能力包括:

    • 多图像理解和关系推理
    • 文本识别和场景文本理解
    • 视觉语义理解和细粒度感知
    • 视频感知和推理能力
    • 上下文对象检测
    • 多模态指令跟随能力
    • 感知和认知能力的综合评估
  6. 开源资源:每个基准测试项目都提供了论文链接和代码/项目链接,便于研究者使用和参考。

这些基准测试共同构成了评估多模态大型AI模型能力的全面框架,反映了当前研究的前沿方向和挑战。

相关网页链接

  1. EQBEN Paper | EQBEN Code
  2. MMC4 Paper | MMC4 Code
  3. OwlEval Paper | OwlEval Project Page | OwlEval Code
  4. OCRBench Paper | OCRBench Code
  5. GVT-Bench Paper | GVT-Bench Code
  6. PerceptionTest Paper | PerceptionTest Code
  7. CODE Paper | CODE Code
  8. Lvlm-ehub Paper | Lvlm-ehub Code
  9. LAMM Paper | LAMM Project Page | LAMM Code
  10. MME Paper (链接可能不完整)

相关图片

未在网页内容中找到图片链接信息。

已掌握的信息

  1. MLLM评估基准的总体分类框架:

    • 一篇核心综述论文 "A Survey on Benchmarks of Multimodal Large Language Models" (arXiv:2408.08632v1) 提供了对180个MLLM评估基准的全面回顾,并将它们分为五个主要类别:(1)感知与理解,(2)认知与推理,(3)特定领域应用,(4)关键能力,以及(5)其他模态。
      • 来源: Observation from url_qa on https://arxiv.org/html/2408.08632v1
      • 原文片段: "This paper presents a comprehensive review of 180 benchmarks and evaluation for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning, (3)specific domains, (4)key capabilities, and (5)other modalities."
    • 该综述还指出,自2024年以来MLLM评估相关的论文数量激增,OpenAI的GPT-4和Google的Gemini在多个基准测试中表现领先。
      • 来源: Observation from url_qa on https://arxiv.org/html/2408.08632v1
      • 原文片段: "自2024年以来,MLLM评估论文数量呈爆发式增长,OpenAI的GPT-4和Google的Gemini在83个基准测试中表现最佳。"
    • 另一篇综述 "A Survey on Multimodal Benchmarks: In the Era of Large AI Models" (提及于 Observation from url_qa on https://github.com/HKUST-LongGroup/Awesome-MLLM-Benchmarks),其GitHub仓库 (https://github.com/HKUST-LongGroup/Awesome-MLLM-Benchmarks) 提供了按理解、推理、生成、应用分类的基准列表,并列出了一些理解型基准的详细信息。
  2. 重点图文评测基准的初步信息:

    • SEED-Bench: 提出了从L0到L4的五级能力层级框架,包含超过24,000个多项选择题,覆盖27个评估维度(包括单图像理解、多图像理解、视频理解和图像生成能力),采用客观高效的多项选择题评估方法。
      • 来源: Observation from url_qa on https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SEED-Bench_Benchmarking_Multimodal_Large_Language_Models_CVPR_2024_paper.pdf
      • 原文片段: "SEED-Bench是一个全面评估多模态大语言模型(MLLMs)能力的基准测试。该论文将MLLMs的能力分为L0到L4五个层级..." and "SEED-Bench包含24,000多个多项选择题,涵盖27个评估维度..."
    • MMBench: 一个双语(中/英文)基准,针对传统基准缺乏细粒度评估和主观基准不可扩展的问题,引入CircularEval策略并利用LLM转换自由形式预测为预定义选项,已集成到VLMEvalKit。
      • 来源: Observation from url_qa on https://arxiv.org/abs/2307.06281
      • 原文片段: "MMBench: Is Your Multi-modal Model an All-around Player?" and "引入严格的CircularEval策略,并利用大型语言模型将自由形式预测转换为预定义选择..."
    • MME (Multimodal Model Evaluation): 评估MLLM的感知和认知能力,包含14个子任务(感知类10个:存在性、计数、位置、颜色、海报、名人、场景、地标、艺术品和OCR;认知类4个:常识推理、数值计算、文本翻译和代码推理)。所有指令-答案对均为手动设计,采用简洁指令。
      • 来源: Observation from url_qa on https://arxiv.org/abs/2306.13394 and Observation from url_qa on https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
      • 原文片段: "MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models" and "感知类别包括存在性、计数、位置、颜色、海报、名人、场景、地标、艺术品和OCR等10个子任务;认知类别包括常识推理、数值计算、文本翻译和代码推理4个子任务。"
  3. 其他提及的图文MLLM评测基准和资源:

  4. 评估指标: 初步提及了BLEU, ROUGE, METEOR。

行动计划

  1. 深化核心文献与资源的信息提取与整合

    • 系统性地研读已识别的核心综述论文(如 arXiv:2408.08632v1, MME-Survey, 以及HKUST-LongGroup的综述)的全文内容。重点是梳理这些综述中关于图文模态评测基准的分类体系、代表性基准列表、各基准的主要特点和评估维度。
    • 彻底检查相关的GitHub仓库(如 swordlidev/Evaluation-Multimodal-LLMs-Survey, BradyFU/Awesome-Multimodal-Large-Language-Models, HKUST-LongGroup/Awesome-MLLM-Benchmarks),汇编其中列出的所有图文相关的评测基准,并记录其原始论文链接、代码/项目链接。
  2. 对主流及新兴图文MLLM评测基准进行系统性调研与分析

    • 基于步骤1的成果,建立一个详尽的图文MLLM评测基准清单。除了已重点关注的SEED-Bench, MMBench, MME外,还需覆盖其他重要的和新兴的基准,例如各类VQA(视觉问答)基准、图像描述基准、视觉推理基准、OCR相关基准、图文检索基准、多模态对话基准,以及针对特定图文能力(如长上下文、幻觉、鲁棒性等)的新型基准。
    • 针对清单中的每一个重要图文评测基准,深入阅读其原始论文和相关技术文档,收集并整理以下维度的详细信息:
      • 基本信息:基准全称、提出机构、发布年份。
      • 核心目标与定位:该基准主要旨在评估模型的哪些图文能力。
      • 任务类型:具体的图文任务(如视觉问答、图像字幕、图文匹配、视觉蕴含、场景文本理解、图表问答等)。
      • 数据集特征:数据来源、构建方法、数据规模(图像/文本数量、样本对数量)、图文内容的特点(如复杂度、领域)、标注质量与方式。
      • 评估方法与流程:采用何种形式进行提问(如多项选择、开放式生成、排序等),答案的评估方式(如精确匹配、基于模型的评估、人工评估),是否有多轮交互等。
      • 核心评估指标:该基准采用的关键量化指标(如准确率、F1值、BLEU、ROUGE、CIDEr、METEOR、SPICE、VQA Score、ANLS、Recall@k、mAP等),并理解其计算方式和侧重点。
      • 评估的图文能力维度:该基准能够考察模型的哪些具体图文理解、推理或生成能力。
      • 独特性与创新点:相较于其他基准的特色。
      • 局限性与潜在问题:可能存在的数据集偏见、评估方法不足等。
    • 信息来源:各基准的原始学术论文(主要来源于顶级AI会议如CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, ACL, EMNLP等),官方项目网站,以及相关的技术报告和代码库。
  3. 系统归纳图文MLLM的评估方法论与指标体系

    • 评估方法学:总结当前图文MLLM评测中采用的主要方法学,包括自动化评估(基于标准答案的匹配、基于模型的打分)、人工评估(标准制定、流程设计、质量控制)以及人机协作评估的模式。分析各自的优缺点和适用场景。
    • 定量评估指标:构建一个图文MLLM常用定量评估指标的知识库。对每个指标,详细解释其定义、计算公式、主要评估目标(如生成质量、语义相似度、理解准确度、推理能力、定位精度等)、适用任务类型以及解读时的注意事项。
    • 定性评估维度:综合不同基准和研究,提炼并细化评估图文MLLM能力的关键维度。例如:物体/属性/关系识别、空间理解、文本识别与理解(OCR)、图表/示意图解析、细粒度视觉描述、跨模态常识推理、逻辑与数学推理(基于图文)、指令遵循的精确性、生成内容的事实一致性与创造性、多轮对话中的上下文理解与连贯性、对模糊或不完整信息的处理能力、模型的鲁棒性(对抗干扰、分布外泛化)、以及可信赖AI相关属性(如偏见、幻觉、安全性)。
    • 信息来源:评测方法相关的学术论文、评测工具的官方文档、以及领域内专家的综述性文章和评论。
  4. 深入分析图文MLLM评测的前沿动态、核心挑战与未来方向

    • 追踪2024年至2025年图文MLLM评测领域的最新研究进展和新兴趋势。特别关注针对模型更深层次理解能力(如组合泛化、因果推理)、交互能力、长程依赖处理、以及对模型内在机制(如可解释性、知识表征)的评估方法。
    • 系统梳理当前图文MLLM评测面临的核心挑战,例如:如何构建真正无偏且能反映真实世界复杂性的数据集、如何有效缓解数据污染问题、如何设计更全面且高效的评估流程、如何平衡自动化评估的效率与人工评估的深度、以及如何评估模型的“真实智能”而非仅仅是模式匹配能力。
    • 基于当前的挑战和技术发展,展望未来图文MLLM评测技术可能的发展方向,例如:更具适应性的动态基准、强调模型与环境交互的评估范式、对模型伦理和社会影响的综合考量等。
    • 信息来源:最新的顶级学术会议论文集、预印本平台(如arXiv)上的前沿研究、权威的技术博客和行业报告、以及相关的研讨会和学术讲座。
  5. 构建结构化报告框架并撰写综合研究报告

    • 设计一份逻辑严密、层次清晰的报告框架,确保能够全面覆盖调研任务的各项要求。建议的报告结构可以包括:
      • 摘要 (Abstract)
      • 1. 引言 (Introduction):背景、意义、图文MLLM评测的复杂性与挑战、报告目的与结构。
      • 2. 图文MLLM评测基准概览 (Overview of Benchmarks for Vision-Language MLLMs)
        • 2.1 评测基准的分类方法 (按任务、能力、模态交互等)
        • 2.2 主流图文评测基准图谱 (按类别列举并简述核心特点)
      • 3. 重点图文MLLM评测基准深度剖析 (In-depth Analysis of Key Benchmarks)
        • (选取若干有代表性的基准,如SEED-Bench, MMBench, MME及其系列,以及其他针对特定图文能力的重要基准,进行详细介绍,包括其设计理念、任务设置、数据集特点、评估指标、评估方法、主要发现、优缺点分析等)
      • 4. 图文MLLM评估方法论与指标体系 (Evaluation Methodologies and Metrics for Vision-Language MLLMs)
        • 4.1 自动化评估方法与常用指标 (分类阐述,如生成质量、理解准确度、检索性能、OCR性能等指标)
        • 4.2 人工评估方法与最佳实践 (评估维度、标准设计、流程管理)
        • 4.3 综合能力评估维度框架 (系统梳理图文MLLM应具备的关键能力)
      • 5. 图文MLLM评测的新兴趋势与前沿探索 (Emerging Trends and Frontiers in Vision-Language MLLM Evaluation)
        • 5.1 近期 (2024-2025) 重要的新型评测基准与方法
        • 5.2 针对模型可信赖AI属性的评测 (鲁棒性、安全性、公平性、幻觉等)
        • 5.3 其他前沿评测方向 (如长上下文、交互式评估、组合泛化、可解释性等)
      • 6. 图文MLLM评测的核心挑战与未来展望 (Core Challenges and Future Outlook for Vision-Language MLLM Evaluation)
        • 6.1 当前评测体系面临的主要瓶颈与难题
        • 6.2 未来评测技术与研究方向的展望
      • 7. 结论 (Conclusion)
      • 8. 参考文献 (References)
    • 基于以上步骤收集和分析的详尽信息,系统地撰写报告的各个章节。确保报告内容的准确性、客观性、全面性和前瞻性,语言表达清晰、专业,并对所有引用的信息来源进行规范标注。

现在,我将查找一些关于最新的MLLM评测基准的信息,特别是2024年发布的基准。

搜索

Search

latest MLLM evaluation benchmarks 2024 new trends
CSDN技术社区
⭐⭐MLLM Tutorial⭐⭐——多模态大语言模型最新教程-CSDN博客1 多模态任务的分类 :理解任务(Comprehension):模型的输入是图像,输出是语言。
人人文库
上传人:1*IP属地:山西 上传时间:2024-12-20 格式:DOCX 页数:26 大小:213.03KB 19.9 第1页/共26页 第2页/共26页 第3页/共26页 第4页/共26页 第5页/共26页 文档描述 多模态大语言模型(MLLMs)在视觉问答、视觉理解与推理等任务中展现出卓越的性能,但多模态大语言模型庞大的模型规模和高昂的训练、推理成本限制了其在学术界和工业界的广泛应用。因此,研究高效且轻量化的多模态大语言模型,特别是在边缘计算场景中,潜力巨大。本文将全面介绍当前多模态...
知乎
该系列将定期更新arxiv上有关Safety的paper,将会不定时更新,旨在帮助为LLM Safety领域的研究者推送最新的研究进展,并进行快速了解 。 此外,我们也将会在GitHub上维护我们有
人人文库
wefindthecurrent_____ratherhigh.答案:priceWearesendingyouseparatelyourlatestcataloguewithdetailsofthevarious_____wehandle.
应届毕业生网
考研英语部分真题及详解 1 Section Ⅰ Use of Directions:Read the following text.Choose the best word(s)for each numbered blank and mark[A],[B],[C]or[D]on ANSWER SHEET 1.(10 points) In Cambodia,the choice of a spouse is a complex one for the young male.It may involve not...
阿里巴巴
com重要属性其他属性原产地Guangxi, China用途家,扫帚棒,拖把柄,刷柄扫帚头材质木材扫把材质木材畚箕材质木材品牌Super Merit型号SMI-P001杆帽多种风格...
应届毕业生网
考研英语真题及答案解析 1 Section Ⅰ Use of Directions: Read the following text.Choose the best word(s)for each numbered blank and mark A,B,C or D on the ANSWER SHEET.(10 points) Could a hug a day keep the doctor away?The answer may be a resounding"yes!(1)helping you f...
网易
推荐一个非常好用的微信查题公众号:丹丹查题网课答案在线查询,非常方便查题方法:发题目到公众号直接查题第一章单元测试1、问题:Theself-introductionspeechisusuallycalledat_.
View all 15 sources

我看到搜索结果中没有提供足够的关于最新MLLM评测基准的详细信息。让我尝试访问之前提到的SEED-Bench的GitHub仓库,获取更多关于这个重要评测基准的详细信息。

网页解析

{{query}}

  1. 摘要
    SEED-Bench是一系列用于评估多模态大语言模型(MLLMs)能力的基准测试集。该系列包括四个主要版本:SEED-Bench-1(2023年发布,包含19K多选题,覆盖12个评估维度)、SEED-Bench-2(2023年发布,包含24K多选题,覆盖27个维度)、SEED-Bench-2-Plus(2024年发布,专注于文本丰富的视觉理解,包含2.3K多选题)和SEED-Bench-H(2024年发布,整合了前三个版本并增加了新的评估维度,共28K多选题,覆盖34个维度)。这些基准测试不仅评估模型的空间和时间理解能力,还包括文本和图像生成能力。SEED-Bench提供了完整的评估代码和数据集,并维护一个公开的排行榜。数据来源多样,包括Conceptual Captions、Google Landmark、PlotQA等多个公开数据集,以及符合CC-BY许可的互联网数据。该项目由腾讯AILab-CVC开发,已在CVPR 2024获得接受,并与ModelScope、OpenCompass等平台合作。

  2. 与多模态大语言模型评估相关的信息

SEED-Bench系列提供了全面的多模态大语言模型评估框架,具有以下特点:

  • 多维度评估:从最初的12个维度扩展到最新的34个维度,涵盖空间理解、时间理解、文本生成和图像生成等多方面能力。
  • 数据规模庞大:SEED-Bench-H包含28K多选题,SEED-Bench-2有24K题,SEED-Bench-1有19K题,SEED-Bench-2-Plus有2.3K题,所有题目均有精确的人工标注。
  • 评估多样性:评估内容包括图表理解、地图理解、网页理解、名人识别、地标识别、科学知识、情感识别、视觉数学、差异识别、表情理解、视频理解、行为识别、行为预测、程序理解等多个方面。
  • 视频评估:包含对视频的全局理解、行为识别、行为预测和程序理解,每个视频提供8帧画面。
  • 生成能力评估:不仅评估理解能力,还评估文本到图像生成、下一帧图像预测、文本-图像创作等生成能力。
  • 专业化评估:SEED-Bench-2-Plus专门针对文本丰富的视觉理解场景,包括图表、地图和网页三大类别。
  • 最新扩展:SEED-Bench-H增加了图像到Latex、视觉故事理解、少样本分割、少样本关键点、少样本深度和少样本目标检测等新维度。
  • 开放评估:提供完整的评估代码和公开排行榜,允许研究者上传自己的模型结果进行比较。
  • 主流模型评估:已评估GPT-4V、Gemini-Vision-Pro、Claude-3-Opus等主流多模态大模型的性能。
  1. 相关网页链接

  2. SEED-Bench-H论文 - SEED-Bench-H的详细介绍论文

  3. SEED-Bench-2-Plus Arxiv - SEED-Bench-2-Plus的arxiv论文链接

  4. SEED-Bench-2 Arxiv - SEED-Bench-2的arxiv论文链接

  5. SEED-Bench-1 Arxiv - SEED-Bench-1的arxiv论文链接

  6. SEED-Bench Leaderboard - SEED-Bench排行榜,可上传模型结果

  7. SEED-Bench数据集 - SEED-Bench-1数据集链接

  8. SEED-Bench-2数据集 - SEED-Bench-2数据集链接

  9. SEED-Bench-2-Plus数据集 - SEED-Bench-2-Plus数据集链接

  10. SEED-Bench-H数据集 - SEED-Bench-H数据集链接

  11. ModelScope数据集 - ModelScope上的SEED-Bench系列数据集

  12. 相关图片

  13. SEED-Bench-2图示

现在我已经收集了足够的信息,可以生成一份关于多模态大语言模型(MLLMs)评测基准的全面报告。让我整理一下所有收集到的信息,并构建报告框架。

多模态大语言模型(MLLMs)评测基准综合研究报告

摘要

随着多模态大语言模型(MLLMs)的迅速发展,评估这些模型的能力变得至关重要。本报告全面梳理了当前MLLMs评测基准的研究现状,重点关注图文多模态能力的评测方法。报告系统分析了主流评测基准(如SEED-Bench、MMBench和MME)的设计理念、评估维度和方法学,并探讨了MLLMs评测的最新趋势与挑战。研究表明,现有评测基准在评估模型的感知、理解、认知、推理和生成等多维能力方面取得了显著进展,但仍面临数据污染、评估全面性和客观性等挑战。本报告为研究人员和开发者提供了MLLMs评测领域的全景视图,有助于推动该领域的进一步发展。

1. 引言

1.1 背景与意义

多模态大语言模型(MLLMs)通过结合视觉和语言能力,展现出令人印象深刻的性能,如基于图像写诗、回答复杂的视觉问题等。这些模型通常由三个主要组件构成:视觉编码器、视觉-语言投影器和大语言模arxiv.org。随着OpenAI的GPT-4V、Google的Gemini等模型的出现,MLLMs领域呈现爆发式增长。

评估MLLMs的性能对于理解这些模型的能力边界、指导应用开发、确保模型的稳健性和安全性至关重要。然而,传统的评估方法往往难以全面反映MLLMs的多维能力,这促使研究者开发更全面、系统的评测基准。

1.2 研究现状

MLLMs评估研究呈现快速增长态势,特别是自2024年以来,相关论文数量呈爆发式增长。目前已有180多个评测基准被提出,涵盖感知与理解、认知与推理、特定领域应用、关键能力和其他模态等多个方面。

在众多模型中,OpenAI的GPT-4和Google的Gemini在83个基准测试中表现最佳,展示了商业闭源模型的强大能力。同时,开源社区也在积极开发评测基准和工具,如SEED-Bench、MMBench和MME等,为研究人员提供了评估自己模型的标准化方openaccess.thecvf.comarxiv.org

1.3 报告目标与结构

本报告旨在提供MLLMs评测基准的全面概览,特别关注图文多模态能力的评测。报告将系统梳理主流评测基准的设计理念、评估维度和方法学,分析评测趋势和挑战,并展望未来发展方向。

报告结构如下:第2节概述MLLMs评测基准的分类框架;第3节深入分析主要评测基准;第4节探讨评估方法与指标体系;第5节讨论新兴趋势与挑战;第6节总结全文并提出展望。

2. MLLMs评测基准概览

2.1 评测基准的分类方法

根据综合文献调研,MLLMs评测基准可以从多个维度进行分类:

  1. 按评估能力维度分类:一项重要的分类方法将MLLMs评测基准分为五大类:

    • 感知与理解:评估模型接收和提取多模态数据特征的能力
    • 认知与推理:评估模型进行高级处理和复杂推理的能力
    • 特定领域应用:评估模型在医疗、自动驾驶、工业等特定领域的表现
    • 关键能力:评估模型处理复杂对话、遵循指令和避免幻觉等能力
    • 其他模态:评估模型处理视频、音频和3D点云等其他模态的能力
  2. 按任务类型分类:另一种分类方法基于具体任务类github.com

    • 理解基准:如EQBEN、MMC4、OwlEval、OCRBench等
    • 推理基准:评估模型的逻辑推理、视觉推理等能力
    • 生成基准:评估模型生成文本、图像等内容的能力
    • 应用基准:评估模型在特定应用场景中的表现
  3. 按能力层级分类:SEED-Bench提出了一个从L0到L4的五级能力层级框架:

    • L0:基于文本输入生成文本(基础LLM能力)
    • L1:理解固定格式的多模态输入(图像/多图像/视频+文本)
    • L2:理解开放形式的交错图像-文本输入
    • L3:能够生成文本和图像
    • L4:能够处理和生成开放形式的交错图像-文本内容

2.2 主流评测基准概览

以下是几个主流MLLMs评测基准的简要概览:

  1. SEED-Bench系列

    • SEED-Bench-1:包含19K多选题,覆盖12个评估维度
    • SEED-Bench-2:包含24K多选题,覆盖27个评估维度
    • SEED-Bench-2-Plus:专注于文本丰富的视觉理解,包含2.3K多选题
    • SEED-Bench-H:整合前三个版本并增加新维度,共28K多选题,覆盖34个维度
  2. MMBench:双语(中/英文)基准,引入CircularEval策略,将自由形式预测转换为预定义选项

  3. MME (Multimodal Model Evaluation):评估感知和认知能力的14个子任务,所有指令-答案对均为手动设计

  4. 其他重要基准

    • OCRBench:评估大型多模态模型在文本相关视觉任务中的能力
    • GVT-Bench:研究适合大型语言模型的视觉标记器特性
    • PerceptionTest:用于多模态视频模型的诊断基准
    • CODE:评估多模态大型语言模型的上下文对象检测能力
    • Lvlm-ehub:大型视觉-语言模型的综合评估基准
    • LAMM:语言辅助多模态指令调优数据集、框架和基准

2.3 评测基准发展趋势

MLLMs评测基准的发展呈现以下趋势:

  1. 评估维度不断扩展:从早期关注基本视觉理解,扩展到复杂推理、生成能力、鲁棒性等多维度

  2. 评估方法多样化:从简单的多项选择题到复杂的开放式生成评估,评估方法越来越多样

  3. 评估规模扩大:数据集规模从早期的几千个样本扩展到数万个样本

  4. 专业化评估增加:针对特定能力(如OCR、图表理解、视频理解)的专业化评估基准不断涌现

3. 主要MLLMs评测基准详解

3.1 SEED-Bench系列

SEED-Bench是一系列全面评估MLLMs能力的基准测试,由腾讯AILab-CVC开发。

3.1.1 SEED-Bench-1与SEED-Bench-2

SEED-Bench-1于2023年发布,包含19K多选题,覆盖12个评估维度。SEED-Bench-2扩展到24K多选题,覆盖27个评估维度,包括单图像理解、多图像理解、视频理解和图像生成能力。

SEED-Bench-2的27个评估维度涵盖了:

  • 单图像理解:物体识别、属性理解、空间关系、视觉常识等
  • 多图像理解:差异识别、顺序理解等
  • 视频理解:行为识别、行为预测、程序理解等
  • 图像生成:文本到图像生成、下一图像预测等

评估结果显示,即使表现最好的模型在L1能力层级(图像和文本理解)上也仅达到60%的准确率,在L2层级(交错图像-文本理解)表现更差,而目前只有少数模型达到L3层级(图像和文本生成)能力。

3.1.2 SEED-Bench-2-Plus与SEED-Bench-H

SEED-Bench-2-Plus于2024年发布,专注于文本丰富的视觉理解,包含2.3K多选题,涵盖图表、地图和网页三大类别。

SEED-Bench-H是最新版本,整合了前三个版本并增加了新的评估维度,共28K多选题,覆盖34个维度。新增维度包括:

  • 图像到Latex
  • 视觉故事理解
  • 少样本分割
  • 少样本关键点
  • 少样本深度
  • 少样本目标检测等

SEED-Bench系列采用多项选择题形式,无需人工或GPT干预评估,提供客观高效的评估方法。数据来源多样,包括Conceptual Captions、Google Landmark、PlotQA等多个公开数据集,以及符合CC-BY许可的互联网数据。

3.2 MMBench

MMBench是一个用于评估大型视觉-语言模型(VLMs)多模态能力的双语基准测试,已被ECCV2024接受为口头报告。

MMBench旨在解决现有评估方法的局限性:传统基准如VQAv2或COCO Caption提供定量性能测量但缺乏细粒度能力评估;而主观基准如OwlEval虽然全面但依赖人工评估,不可扩展且可能存在偏见。

MMBench的主要特点包括:

  1. 精心策划的评估问题和能力测试,数量和多样性超过现有类似基准
  2. 引入严格的CircularEval策略,并利用大型语言模型将自由形式预测转换为预定义选择,提高评估准确性
  3. 包含英文和中文版本的多项选择题,实现VLMs在双语环境下的公平比较

MMBench已集成到VLMEvalKit中(https://github.com/open-compass/VLMEvalKit),为研究社区提供标准化的评估工具。

3.3 MME (Multimodal Model Evaluation)

MME是一个全面评估MLLMs感知和认知能力的基准测试。该基准通过14个子任务评估MLLM的感知和认知能力,所有指令-回答对的注释均为手动设计,以避免使用公共数据集可能带来的数据泄露问题。

MME的14个子任务分为两大类别:

  1. 感知类别(10个子任务):

    • 存在性:判断特定物体是否存在
    • 计数:计算图像中的物体数量
    • 位置:描述物体的空间位置关系
    • 颜色:识别物体的颜色
    • 海报:理解电影海报等内容
    • 名人:识别名人
    • 场景:识别和描述场景
    • 地标:识别地标建筑
    • 艺术品:识别和理解艺术作品
    • OCR:识别图像中的文本
  2. 认知类别(4个子任务):

    • 常识推理:基于图像进行常识性推理
    • 数值计算:解决图像中的数学问题
    • 文本翻译:翻译图像中的文本
    • 代码推理:理解和生成与图像相关的代码

MME提供了自动化评估脚本,每个子任务满分为200分,感知类总分2000分,认知类总分800分。评估结果显示,在感知任务中,Qwen-VL-Max、ChatTruth-7B和InternLM-XComposer2-VL表现较好;在认知任务中,GPT-4V表现最佳。

MME已发展为一系列评估工作,包括原始MME基准、MME-Survey综述、Video-MME视频分析基准和MME-RealWorld真实场景基准。

3.4 其他重要评测基准

除了上述三个主要基准外,还有许多其他重要的MLLMs评测基准:

  1. OCRBench:评估大型多模态模型在文本相关视觉任务中的能力,发布于2023年5月。

  2. GVT-Bench:研究适合大型语言模型的视觉标记器特性,发布于2023年5月。

  3. PerceptionTest:用于多模态视频模型的诊断基准,发布于2023年5月。

  4. CODE:评估多模态大型语言模型的上下文对象检测能力,发布于2023年5月。

  5. Lvlm-ehub:大型视觉-语言模型的综合评估基准,发布于2023年6月。

  6. LAMM:语言辅助多模态指令调优数据集、框架和基准,发布于2023年6月。

  7. Video-MME:首个全面评估MLLM在视频分析中表现的基准,适用于图像MLLM和视频MLLM,包含短期(<2分钟)、中期(4-15分钟)和长期(30-60分钟)视github.com

  8. MME-RealWorld:测试MLLM在高分辨率真实场景中的表现。

这些基准测试从不同角度评估MLLMs的能力,为研究人员提供了全面的评估工具。

4. MLLMs评估方法与指标体系

4.1 评估方法学

MLLMs评估方法主要分为以下几类:

  1. 多项选择题评估:如SEED-Bench系列,提供客观高效的评估方法,无需人工或GPT干预。这种方法的优点是评估客观、高效,缺点是可能限制模型的表达能力。

  2. CircularEval策略:由MMBench提出,利用大型语言模型将自由形式预测转换为预定义选择,提高评估准确性。这种方法结合了开放式回答的灵活性和客观评估的优势。

  3. 手动设计的指令-答案对:如MME,所有指令-答案对均为手动设计,以避免数据泄露问题。这种方法可以更好地控制评估内容,但成本较高。

  4. 分层能力评估:如SEED-Bench提出的L0到L4五级能力层级框架,从基础文本生成能力到复杂的交错图文处理能力。这种方法有助于系统性地评估模型的不同层次能力。

4.2 评估指标

MLLMs评估使用的主要指标包括:

  1. 准确率(Accuracy):多项选择题评估中最常用的指标,衡量模型选择正确答案的比例。

  2. 分类指标:如F1分数、精确率(Precision)、召回率(Recall)等,用于评估模型在分类任务中的表现。

  3. 生成质量指标:如BLEU、ROUGE、CIDEr、METEOR、SPICE等,用于评估模型生成文本的质量。

  4. VQA Score:专门用于视觉问答任务的评分指标。

  5. OCR相关指标:如ANLS (Average Normalized Levenshtein Similarity),用于评估模型在OCR任务中的表现。

4.3 评估维度

MLLMs评估涵盖的主要能力维度包括:

  1. 感知能力

    • 物体识别与定位
    • 属性理解(颜色、形状、材质等)
    • 空间关系理解
    • 场景识别
    • OCR能力(文本识别)
  2. 理解能力

    • 视觉常识理解
    • 图表/地图/网页理解
    • 多图像关系理解
    • 视频内容理解
  3. 认知与推理能力

    • 视觉推理
    • 常识推理
    • 数值计算
    • 因果关系推断
  4. 生成能力

    • 文本生成(基于图像)
    • 图像生成(基于文本)
    • 图像编辑与修改
  5. 其他关键能力

    • 指令遵循能力
    • 多轮对话能力
    • 抗幻觉能力
    • 鲁棒性(对抗样本、分布外泛化)

5. MLLMs评测的新兴趋势与挑战

5.1 新兴评测趋势

  1. 多模态能力的综合评估:从单一能力评估向综合能力评估发展,如SEED-Bench-H覆盖34个评估维度。

  2. 专业化评估的深入:针对特定能力(如OCR、图表理解、视频理解)的专业化评估基准不断涌现。

  3. 长上下文多模态处理:评估模型处理长序列多模态内容的能力,如Video-MME评估长视频理解能力。

  4. 生成能力评估的增强:不仅评估模型的理解能力,还评估其生成文本和图像的能力。

  5. 多语言评估:如MMBench提供中英双语评估,使模型在不同语言环境下的表现可以公平比较。

  6. 评估方法的创新:如CircularEval策略,结合开放式回答的灵活性和客观评估的优势。

5.2 主要挑战

  1. 数据污染问题:随着预训练数据规模的增大,评测数据可能已被模型在预训练阶段见过,导致评估结果不准确。

  2. 评估全面性问题:现有评测基准难以全面覆盖MLLMs的所有能力维度。

  3. 评估客观性问题:开放式生成任务的评估往往依赖人工或其他模型,存在主观性。

  4. 评估成本问题:全面评估MLLMs需要大量计算资源和人力资源。

  5. 模型能力边界问题:随着模型能力的快速提升,评测基准需要不断更新以跟上模型发展。

5.3 未来展望

  1. 更全面的评估体系:开发覆盖更多能力维度的评估体系,特别是针对模型的鲁棒性、安全性、公平性等方面。

  2. 更高效的评估方法:开发更高效、更客观的评估方法,减少评估成本。

  3. 动态更新的评测基准:建立能够动态更新的评测基准,以适应模型能力的快速发展。

  4. 跨模态评估的深入:深入研究跨模态理解和生成能力的评估方法。

  5. 真实世界应用的评估:更多关注模型在真实世界应用场景中的表现,如MME-RealWorld。

6. 结论与展望

本报告全面梳理了MLLMs评测基准的研究现状,重点分析了SEED-Bench、MMBench和MME等主流评测基准的设计理念、评估维度和方法学。研究表明,MLLMs评测基准在评估模型的感知、理解、认知、推理和生成等多维能力方面取得了显著进展,但仍面临数据污染、评估全面性和客观性等挑战。

未来MLLMs评测研究可能朝着以下方向发展:

  1. 开发更全面、更客观的评估体系
  2. 探索更高效、更低成本的评估方法
  3. 建立能够动态更新的评测基准
  4. 深入研究跨模态理解和生成能力的评估
  5. 更多关注模型在真实世界应用场景中的表现

随着MLLMs技术的快速发展,评测基准将继续发挥关键作用,帮助研究人员和开发者理解模型能力边界,指导模型优化方向,推动MLLMs领域的进一步发展。

参考文献

  1. Li, Y., et al. (2024). SEED-Bench: Benchmarking Multimodal Large Language Models. CVPR 2024.
  2. Liu, Y., et al. (2023). MMBench: Is Your Multi-modal Model an All-around Player? ECCV 2024.
  3. Fu, J., et al. (2023). MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models.
  4. A Survey on Benchmarks of Multimodal Large Language Models. arXiv:2408.08632v1.
  5. AILab-CVC. SEED-Bench GitHub Repository. https://github.com/AILab-CVC/SEED-Bench
  6. HKUST-LongGroup. Awesome-MLLM-Benchmarks GitHub Repository. https://github.com/HKUST-LongGroup/Awesome-MLLM-Benchmarks
  7. BradyFU. Awesome-Multimodal-Large-Language-Models GitHub Repository. https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

SEED-Bench-2概览图|展示SEED-Bench-2的27个评估维度和整体框架|AILab-CVC

Key references