确认时间范围:您希望了解的是Hugging Face在**过去一年(2024年6月25日至今)**内官方发布的开源评测集吗?
影响力评估标准:您希望如何评估这些评测集的影响力?例如,可以考虑下载量、社区讨论热度、被引用次数等指标,您更关注哪些方面?
表格内容需求:除了评测集名称、发布时间和影响力,您还希望表格中包含其他信息吗?例如评测集的类型、主要功能等。
我需要为Hugging Face过去一年(2024年6月25日至今)内官方发布的开源评测集创建一个表格,包含评测集名称、发布时间和影响力。
首先,我需要收集相关信息。Hugging Face作为全球最大的AI模型开源平台,可能在多个渠道发布评测集信息。我应该使用网络搜索工具来查找这些信息。
确定搜索的时间范围:2024年6月25日至今,也就是过去一年。
搜索Hugging Face官方发布的开源评测集:
从搜索结果中提取评测集信息:
评估每个评测集的影响力:
整理数据并创建表格:
确保信息的准确性和权威性:
检查信息的完整性和时效性:
我将使用搜索工具来获取这些信息,重点关注Hugging Face官网、博客、新闻稿等权威渠道,以及相关技术博客和新闻网站中关于Hugging Face评测集的报道。
Search
Hugging Face 开源评测集 2024-2025, sourced from huggingface.co根据现有搜索结果,Hugging Face在过去一年(2024年6月25日至今)官方发布的开源评测集信息整理如下:
评测集名称 | 发布时间 | 主要特点与影响力 |
---|---|---|
Open LLM Leaderboard (升级版) | 2024年 | 引入更具挑战性的基准测试(MMLU-Pro/GPQA/MATH),采用无污染数据集,成为大模型领域最具权威的榜单之一东方财富网。2025年2月数据显示中国模型Qwen2-72B-Instruct位居榜首,阶跃星辰Step系列多模态模型进入Top 5东方财富网。 |
FinFE/FinQA/FinCQA金融评测集 | 2024年8月 | 聚焦金融领域NLP任务,包含Accuracy和F1等评估指标,被DISC-FIN-SFT等金融专用模型采用huggingface.co。 |
WebWalkerQA | 2025年6月 | 新型网页交互能力测试集,包含网页操作和问答任务,用于评估模型的实际应用能力huggingface.co。 |
SmolVLA机器人评测基准 | 2025年6月 | 配套450M参数开源机器人模型发布,包含LIBERO/Meta-World等模拟测试平台指标,在抓取/分类任务中超越Octo等竞品同花顺财经。 |
资料来源: 东方财富网huggingface.cohuggingface.co同花顺财经
关键趋势分析: