我需要了解用户对开源知识图谱的具体需求,以便提供最相关的信息。
开源知识图谱是一种结构化的知识表示形式,可用于多种AI和数据分析应用。用户可能需要了解最新最大的开源知识图谱用于研究、开发或其他目的。我需要确认几个关键点:
好的,遵照您的指示,这是一个旨在找出最新、最大开源知识图谱的行动计划。
首先,让我们进行一次广泛的网络搜索,以了解当前最大、最新的开源知识图谱。
Search
largest open source knowledge graph 2024我看到了一些关于开源知识图谱的初步信息,但需要更具体地搜索最新最大的开源知识图谱。让我尝试使用更精确的关键词。
Search
largest open source knowledge graph dataset 2025 wikidata dbpedia我需要更详细地了解一些最大的开源知识图谱,特别是Wikidata和DBpedia的最新情况,以及它们的规模数据。
Search
wikidata dbpedia knowledge graph size statistics 2025 number of triples entities现在让我查看一下有关CS-KG 2.0这个计算机科学领域的大型知识图谱的更多信息,因为它在搜索结果中多次出现,似乎是2025年最新的大型知识图谱之一。
本文介绍了CS-KG 2.0知识图谱,这是一个针对计算机科学领域的大规模知识图谱。文章首先阐述了当前科学文献检索和分析面临的挑战,包括每年约250万篇新论文的快速增长、非结构化文本处理困难等问题,即使是先进的大语言模型也难以有效处理。为解决这些问题,知识图谱作为一种结构化数据表示方式被提出,可以通过<主体、谓语、客体>的三元组形式描述领域实体及其关系。文章回顾了科学领域知识图谱的发展,从早期的AI-KG到第一代CS-KG,并指出了后者的局限性,如缺乏时间信息、仅包含被引用的论文、基于已停用的Microsoft Academic Graph等。CS-KG 2.0作为改进版本,解决了这些问题,并基于OpenAlex项目构建,为计算机科学研究提供了更全面、更新、更易于链接的知识表示。
CS-KG 2.0是计算机科学领域的大规模知识图谱,是对之前版本的重要升级。从文章中可以提取到以下关于CS-KG 2.0的关键信息:
发展背景:CS-KG 2.0是在2022年发布的第一代CS-KG基础上发展而来的。第一代CS-KG覆盖了约670万篇计算机科学领域的研究论文,提供了研究实体之间的广泛关系。
解决的问题:CS-KG 2.0解决了第一代CS-KG的几个主要限制:
技术基础:CS-KG 2.0采用了语义网技术,如RDF和Web本体语言(OWL),这允许人类专家验证、管理和纠正数据及其本体模式。
知识表示方式:采用三元组格式<主体、谓语、客体>来表示实体间关系,例如<情感分析, 使用, 深度学习分类器>或<云计算, 包括, 虚拟化安全>。
与其他知识图谱的关系:CS-KG 2.0是在AI-KG(包含120万个关于80万研究实体的陈述)基础上发展而来的,但扩大了覆盖范围,不仅限于人工智能领域,而是涵盖了计算机科学的各个子领域。
应用价值:CS-KG 2.0可以支持智能文献搜索、自动创建文献综述、增强学术写作和引用、自动形成新假设、开发专业对话代理等多种应用场景。
虽然文章中没有明确提到CS-KG 2.0具体包含多少实体和三元组,但提到第一代CS-KG覆盖了约670万研究出版物,而CS-KG 2.0的规模应该更大,因为它解决了仅包含被引用论文的限制,并基于持续更新的OpenAlex构建。
无图片内容在提供的网页中。
已掌握的信息
下一步行动计划
Search
wikidata statistics 2025 number of entities triples我现在需要查询更多关于DBpedia的最新统计数据,以便与Wikidata进行比较。
Search
dbpedia statistics 2025 number of entities triples让我查询一下有关其他大型开源知识图谱的信息,特别是一些可能在中国或其他国家开发的知识图谱。
Search
largest chinese open source knowledge graph 2025 CN-DBpedia OpenKG我现在需要查询一下CS-KG 2.0的具体规模数据,因为之前的搜索结果中提到它是2025年最新的大型知识图谱之一。
Search
CS-KG 2.0 knowledge graph size statistics number of entities triples已掌握的信息
下一步行动计划
Search
CN-DBpedia OpenKG 中文知识图谱 规模 实体数量 三元组 2025现在我需要查看一下有关OpenKG和CN-DBpedia的最新数据和更新情况,特别是2025年的相关信息。
该网页介绍了CN-DBpedia,这是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,前身为复旦GDM中文知识图谱。CN-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等处理后形成高质量的结构化数据。自2015年12月发布以来,CN-DBpedia已在问答机器人、智能玩具、智慧医疗、智慧软件等领域产生3.5亿次API调用量。目前CN-DBpedia提供Dump数据下载,包含900万+百科实体和6700万+三元组关系,其中mention2entity信息110万+,摘要信息400万+,标签信息1980万+,infobox信息4100万+。Dump数据仅供学术研究使用,商用需获取授权。网页还提供了引用CN-DBpedia的学术文献信息。
根据网页内容,关于CN-DBpedia的数据规模信息如下:
网页中没有提供2024-2025年的更新信息。网页内容提到"最新数据请直接访问CN-DBpedia API",但没有明确指出最近的更新时间或计划。网页上显示的信息可能不是最新的,因为没有标注具体的更新日期。
网页中提到的最早时间点是2015年12月,即CN-DBpedia的首次发布时间,以及引用的一篇2017年的论文,但没有提供最近的更新信息。
网页中没有与问题相关的图片内容。
我需要继续查询OpenKG的最新信息,以及查找是否有其他中文知识图谱的最新数据。
这个网页是OpenKG(中文开放知识图谱社区)的主页或新闻页面,展示了该组织近期的活动和进展。内容包括2024年中文开放知识图谱社区大会的举办信息,以及多个技术动态和专家讨论。主要内容涵盖了OneGraph(大模型驱动的开放知识图谱)的更新,大模型时代的知识图谱年度进展报告,数据与知识双轮驱动的大模型技术论坛,以及知识融合视角下的检索增强生成技术等。此外,网页还展示了KAG(国内首个专业领域知识增强服务框架)的技术报告,IEEE P2807.7标准《开放域知识图谱发布和众包服务指南》的启动,以及SIGEval兴趣组构建基于LLM的KG相关任务评测等内容。网页还包含了不确定性知识图谱推理工具unKR、OpenRAG Base等开源项目的信息,以及OpenKG的年度回顾和组织活动信息。
在提供的网页内容中,没有直接提及OpenKG的最新数据规模、实体数量和三元组数量的具体信息。网页主要展示了OpenKG的活动、技术动态和专家讨论,但没有关于知识图谱规模的具体数据统计。
虽然有提到"OneGraph发布更新:大模型驱动的开放知识图谱",但没有给出具体的数据规模信息。同样,也没有明确提及2024-2025年关于数据规模的更新信息。
网页内容主要集中在活动报道、技术论坛、专家观点和开源项目等方面,而非具体的数据统计信息。要获取OpenKG的最新数据规模、实体数量和三元组数量,可能需要查看其他相关页面或技术报告。
无与问题相关的图片可提取。网页内容中没有显示包含OpenKG数据规模、实体数量或三元组数量信息的图片。
我需要搜索更多关于中文知识图谱的最新统计数据,特别是2025年的更新情况。
Search
中文知识图谱 最新规模 2025 实体数量 三元组数量 CN-DBpedia OpenKG已掌握的信息
下一步行动计划
可视化工具
现在我需要创建一个更全面的可视化,包括实体数量的对比。
可视化工具
最后,我需要整合所有信息,提供一个全面的总结和结论。
在通用领域,Wikidata无疑是目前规模最大的开源知识图谱。截至2025年4月,Wikidata的WDQS图数据库已包含约16.6亿亿条三元组记录Wikipedia。这一庞大的数据规模使其成为当前世界上最大的开放知识图谱。
Wikidata由维基媒体基金会维护,是一个多语言结构化知识库,提供标准化RDF数据转储格式(Turtle/NTriples)百度百科。其技术架构区分了包含全体实体数据的-all转储与精简表示的-truthy转储,同时提供Lexeme命名空间专用转储百度百科。
作为人工智能领域重要的知识基础设施,Wikidata被广泛应用于各类任务。例如,WikiReading数据集(包含1800万实例)的文本值预测任务就基于Wikidata构建百度百科。在知识分类场景中,其4.1万种类型体系支撑了WikiWiki数据集对1000万维基百科实体的系统性分类研究百度百科。
DBpedia是另一个重要的通用领域开源知识图谱,其规模仅次于Wikidata。根据DBpedia官方网站,其最新版本"Largest Diamond"数据集包含2.2亿个实体和14.5亿个三元组dbpedia.org。
DBpedia于2006年建立,旨在生产一个可查询的知识图谱,源自维基百科内容DBpedia。多年来,DBpedia项目已发布了数TB的有用数据DBpedia。这是一个开放社区项目,有来自数千名开发者、工程师、公司和科学家的贡献,他们共同构建了这个自由可用的高质量知识图谱DBpedia。
在垂直领域中,2025年6月发布的CS-KG 2.0是最新且规模最大的开源知识图谱之一。根据《Nature》上发表的论文,CS-KG 2.0包含超过10亿个RDF三元组和约2400万个研究实体nature.com。另一个研究报告显示,CS-KG 2.0描述了2500万个实体,通过6700万个关系连接,提供了对科学知识的精细表示researchgate.net。
CS-KG 2.0是对2022年发布的第一代CS-KG的重要升级。第一代CS-KG覆盖了约670万篇计算机科学领域的研究论文,提供了研究实体之间的广泛关系。CS-KG 2.0解决了第一代的几个主要限制:添加了实体的时间相关信息,包含了更多最新发表的论文,不再仅限于被引用过的论文,并基于OpenAlex项目构建,使其可以持续更新并链接到当前广泛认可的元数据目录。
CS-KG 2.0采用了语义网技术,如RDF和Web本体语言(OWL),这允许人类专家验证、管理和纠正数据及其本体模式。其应用价值包括支持智能文献搜索、自动创建文献综述、增强学术写作和引用、自动形成新假设、开发专业对话代理等多种应用场景。
CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,是目前规模最大的开放中文知识图谱之一Data OpenKG。根据公开数据,CN-DBpedia包含900万+的百科实体以及6700万+的三元组关系Data OpenKG。其中包含mention2entity信息110万+,摘要信息400万+,标签信息1980万+,infobox信息4100万+Data OpenKG。
CN-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据Data OpenKG。自2015年12月份发布以来,CN-DBpedia已经在问答机器人、智能玩具、智慧医疗、智慧软件等领域产生3.5亿次API调用量Data OpenKG。
然而,值得注意的是,公开可获取的CN-DBpedia数据可能不是最新的。有资料显示,截至2024年,CN-DBpedia可能已包含"数千万个实体和超过2亿条关系"hanspub.org,但缺乏官方确认的最新精确数据。
OpenKG是一个面向中文领域开放知识图谱的社区项目,主要目的是促进中文领域知识图谱数据的开放与互联腾讯网。OpenKG聚集了大量开放的中文领域知识图谱数据、工具及文献腾讯网。
典型的中文开放知识图谱数据包括百科类的Zhishi.me(狗尾草科技、东南大学)、CN-DBPedia(复旦大学)、XLore(清华大学)、Belief-Engine(中科院自动化所)、PKUPie(北京大学)等腾讯网。这些百科知识图谱都已经通过OpenKG提供了开放的Dump或开放访问API腾讯网。
此外,OpenKG还对一些重要的知识图谱开源工具进行了搜集和整理,这包括知识建模工具Protege、知识融合工具Limes、知识问答工具YodaQA、知识抽取工具DeepDive等腾讯网。
资料来源: Wikipediadbpedia.orgnature.comData OpenKG
上图展示了2025年主要开源知识图谱的三元组数量对比。Wikidata以166亿三元组的规模遥遥领先,是第二名DBpedia(14.6亿)的11倍多,是垂直领域最大的CS-KG 2.0(10亿)的16倍多,是中文知识图谱CN-DBpedia公开数据(0.67亿)的近250倍。这一数据充分说明了Wikidata在开放知识图谱领域的绝对领先地位。
资料来源: arxiv.orgdbpedia.orgresearchgate.netData OpenKG
从实体数量来看,DBpedia的"Largest Diamond"数据集以2.2亿实体位居首位,超过了Wikidata的1.2亿实体。垂直领域的CS-KG 2.0包含2400万实体,而CN-DBpedia公开数据显示有900万实体。这表明DBpedia在实体覆盖广度上具有优势,而Wikidata则在三元组数量上占据绝对优势,说明Wikidata对实体间关系的描述更为丰富。
基于本次全面调研,我们可以得出以下结论:
规模最大的开源知识图谱:Wikidata以166亿三元组的规模成为当前世界上最大的开源知识图谱,其数据量远超其他知识图谱。
最新的重要更新:2025年6月发布的CS-KG 2.0是垂直领域内最新且规模最大的开源知识图谱,其10亿三元组和2400万实体的规模在专业领域内十分突出。
中文知识图谱现状:CN-DBpedia是目前公开数据中规模最大的中文开源知识图谱,但其公开可获取的数据(900万实体,6700万三元组)可能不是最新的。中文知识图谱整体规模与国际主流知识图谱相比仍有较大差距。
推荐选择:
综上所述,如果单纯从"最新最大"的角度考虑,Wikidata无疑是当前最大的开源知识图谱,而CS-KG 2.0则是2025年发布的规模最大的垂直领域开源知识图谱。