文件
[PDF] A Comparison of DeepSeek and Other LLMs
腾讯
DeepseekV3是否真的能成为开源AI的新里程碑?本文将从技术特性、争议焦点、评测基准和未来前景等方面展开深入分析。技术亮点:DeepseekV3的核心特性 DeepseekV3的技术参数无疑令人瞩目,其采用的混合专家(MixtureofExperts,MoE)架构是其最大的亮点之一。MoE架构允许模型在推理过程中仅激活部分参数,从而在保持模型规模的同时优化计算效率。据公开资料,DeepseekV3的总参数量高达6710亿个,但在推理过程中仅激活约3...
新京报
2025年新春伊始,中国AI行业迎来里程碑时刻。DeepSeek崛起引发全球AI产业震荡,百度开源、GPT免费… 由深度求索公司研发的开源大模型DeepSeek以"低成本+高智能+全开源"的颠覆性优势横空出世,犹如一条激活全球AI生态的鲶鱼,在科技界掀起惊涛骇浪。这场由DeepSeek引发的"中国冲击波"首先震荡硅谷,OpenAI坐不住了。“每天都有压力。OpenAI首席执行官山姆·奥特曼坦承压力,并于2月初紧急推出"防御三连击":发布...
bjtimechina.com.cn
2025年初,DeepSeek R1版本在华西医院正式上线,成为智慧医疗领域的又一里程碑。“我们正在开发一系列医疗服务机器人,包括5G+ICU探视机器人、移动护理机器人等。周鸣翰透露,“未来,DeepSeek R1将与这些机器人深度融合,为医院打造全方位的智能化解决方案。记者从天眼查获悉,成都银领新科技有限公司成立于2019年,位于四川省成都市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本1000万元。据了解,成都银领新科技有限公司核心团队来...
新浪财经_手机新浪网
2025年初,DeepSeek R1版本在华西医院正式上线,成为智慧医疗领域的又一里程碑。“我们正在开发一系列医疗服务机器人,包括5G+ICU探视机器人、移动护理机器人等。周鸣翰透露,“未来,DeepSeek R1将与这些机器人深度融合,为医院打造全方位的智能化解决方案。记者从天眼查获悉,成都银领新科技有限公司成立于2019年,位于四川省成都市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本1000万元。据了解,成都银领新科技有限公司核心团队来...
新浪财经_手机新浪网
2025年初,DeepSeek R1版本在华西医院正式上线,成为智慧医疗领域的又一里程碑。“我们正在开发一系列医疗服务机器人,包括5G+ICU探视机器人、移动护理机器人等。周鸣翰透露,“未来,DeepSeek R1将与这些机器人深度融合,为医院打造全方位的智能化解决方案。据从天眼查获悉,成都银领新科技有限公司成立于2019年,位于四川省成都市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本1000万元。据了解,成都银领新科技有限公司核心团队来自...
新华网
“我行已成功本地化部署微调DeepSeek-VL2多模态模型、轻量DeepSeek-R1推理模型,分别运用于智能合同质检和自动化估值对账场景。”江苏银行人士说。
“应用DeepSeek-VL2多模态
百度开发者中心
简介:DeepSeek发布全新开源大模型,其数学推理能力显著超越LLaMA-2,展示了国产AI在复杂计算与理解方面的卓越成就。本文将深入解析DeepSeek的技术优势与实际应用。DeepSeek 开源大模型 新突破:数学推理能力领跑AI领域 引言 随着人工智能技术的飞速发展,大型语言模型(LLM)逐渐成为研究与应用的热点。近期,DeepSeek团队发布了其全新开源大模型,该模型在数学...
证券时报
此后,DeepSeek-V2发布,主流判断认为,幻方量化转型为人工智能先驱,其超低价格甚至引发了国内大模型的价格战,DeepSeek也被迅速冠以“AI界拼多多”之称。 无论 ...
知乎
Deepseek确实有两把刷子。它首次把低精度混合精度的训练框架的实现,以及低秩的压缩的典型应用范例。目前,不仅是国内大模型,包括国外大模型也都没有 ...
清华大学
DeepSeek,中国人工智能大模型的新里程碑,自2025 年1 月上线以来受到全球关注,不仅引爆了新一轮的人工智能应用热潮,更是在短期内引发了市场对人工智能大模 ...
上海东方财富证券投资咨询有限公司
DeepSeek-R1-Zero 是一种通过大规模强化学习(RL)训练的模型, 没有监督微调(SFT) 作为初步步骤,展示了卓越的推理能力。
中国科学技术大学
《纽约时报》评价称,DeepSeek能与OpenAI的ChatGPT媲美,“仅此一点就已经是一个里程碑”。DeepSeek是如何在AI竞赛中脱颖而出的?它是否走出了大模型发展的一条 ...
jingjidaokan.com
DeepSeek R1基于V3模型实现关键技术突破。 R1与V3并非孤立两大模型,R1作为基于V3 6710亿参数的混合专家模型,较为均衡高效,每个Token激活了约370亿参数。
湖南省人民政府门户网站
今年春节期间,DeepSeek—R1大模型凭借强大的性能、较低的训练成本火了。大模型是人工智能时代的重要里程碑。湖南也在积极发力——打造80个左右特色化行业 ...
中国社会科学网
由杭州深度求索科技研发的DeepSeek-R1,因其性能比肩美国OpenAI研发的o1模型,训练成本更低且完全开源,实现了中国自主研发大模型里程碑意义的突破。
文件
[PDF] A Comparison of DeepSeek and Other LLMs
中青在线
中青报·中青网记者 贾骥业
DeepSeek引发的“鲶鱼效应”还在持续,这次的主角是AI(人工智能)大模型的价格。
北京时间2月13日凌晨3时,OpenAI首席执行官山姆·奥特曼在社交平台上宣布,GP
手机光明网
多位业内人士对中青报·中青网记者表示,这次国内外AI厂商纷纷在价格上转向,意味着AI大模型的竞争进入了“免费普惠阶段”,DeepSeek的影响不容忽视。“在同样性能的不同大模型中,C端(个人消费者)用户向来喜欢选择免费的。快思慢想研究院院长、原商汤智能产业研究院创始院长田丰对记者说,2022年年底的“ChatGPT时刻”让每一个普通人都能体验到AI的魔力。如今,DeepSeek的横空出世促使大...
中国日报网
本文将从技术路径、AI Agent商业化以及国产AI大模型的发展策略三个方面,分析DeepSeek的经验如何助力中国AI行业的进一步突破。一、DeepSeek的技术路径对国产AI大模型的启示 1.模型架构优化提升性能 DeepSeek采用的稀疏激活混合专家(MoE)架构和多头潜在注意力(MLA)机制,为国产AI大模型的架构设计提供了新思路。MoE架构通过引入专家模型,提高了计算资源的...
中新网
多位业内人士对中青报·中青网记者表示,这次国内外AI厂商纷纷在价格上转向,意味着AI大模型的竞争进入了“免费普惠阶段”,DeepSeek的影响不容忽视。“在同样性能的不同大模型中,C端(个人消费者)用户向来喜欢选择免费的。快思慢想研究院院长、原商汤智能产业研究院创始院长田丰对记者说,2022年年底的“ChatGPT时刻”让每一个普通人都能体验到AI的魔力。如今,DeepSeek的横空出世促使大...
腾讯
快思慢想研究院院长、原商汤智能产业研究院创始院长田丰在接受贝壳财经记者采访时表示,DeepSeek是专注基础模型的公司,并没有花太大精力在产品上,不像Kimi和豆包必须让用户“不卡”(注:当前DeepSeek由于需求过大导致频繁“服务器繁忙”影响了用户体验),加上并非所有企业都有足够的算力本地部署DeepSeek,因此其崛起首先会利好算力厂商。此外,DeepSeek...
人民网
DeepSeek的低成本、高性能、开源化服务模式有望解决金融行业在应用传统AI大模型过程中的诸多痛点。中国银行研究院研究员刘晨表示,DeepSeek极大降低了AI大模型的应用门槛,有望重塑金融行业的科技发展生态。其开源模式允许金融部门根据业务需求灵活调用和部署不同参数、功能的模型。大型金融机构可以在前期数据积累、自研大模型等基础上,结合业务场景特性调用DeepSeek模型,推动业务价值链向高端延伸;而中小金融机构则可以通过部分环节的本地化部署加快入局步伐。
新华网
潘悦 制图 一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵“海啸”。短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型,“1/18的训练成本、1/10的团队规模、不分伯仲的...这也是为什么,即便别国在人工智能领域已坐享先发优势,后发者依然有机会凭借技术创新、成本革命打破大模型竞争的传统逻辑,打破人工智能行业竞争格局,打破“他国更擅长从0到1的原始创新,而中国更擅长从1到10的应用...
知乎
从产业发展角度来看,DeepSeek的发布引发了连锁反应。它不仅重塑了AI产业链的价值分配格局,更推动了整个行业的技术升级和生态重构。从数据服务商 ...
上海东方财富证券投资咨询有限公司
DeepSeek 的出现大大加速了行业成本下行的速度。 例如,DeepSeek-R1 的 API 定价,每百万token 的输出价格为2.19 美元,比起OpenAI o1 的60 美 元低了90%以 ...
21财经
具身大模型在训练过程中,会采用虚实结合的数据训练方法。在虚拟仿真环境中训练出来的模型,迁移到真机上直接做推理会有不错的表现,但还是会存在一些GAP。
中国日报网
据行业监测数据显示,以DeepSeek为代表的开源大模型已在金融、医疗、智能制造等12个重点行业实现规模化应用,中国人工智能行业市场规模不断扩大。
morganstanleychina.com
... 大影响。 节省电力和能源。模型中的“混合专家模型”(MoE)系统在任何给定时间的活动参数都低于6%,从而降低了能源需求,进而降低了总体成本。 围绕 ...
上海财经大学
在人工智能技术重塑全球产业格局的浪潮中,大模型技术正重塑金融行业的创新范式,正成为金融领域创新与效率提升的核心引擎,人工智能大模型DeepSeek的崛起, ...
央视网
阿里、百度、华为等国内头部科技企业和新兴的AI大模型创业公司,纷纷宣布将整合或已经接入DeepSeek平台,试图通过这一前沿技术推动自身业务的发展。英伟达、 ...
jiweinet.com
7月11日晚,月之暗面公司突然发布重要更新,正式推出Kimi K2模型并同步开源。Kimi K2采用MoE架构,总参数达到1T,激活参数为32B,相较于过去的基座模型,更强调代码能力和通用Agent任务能力。在多项基准性能测试中,Kimi K2表现出色,达到开源模型SOTA水平。具体而言,在SWE-bench Verified和SWE-bench Multilingual两项自主编程能力测试中,
界面新闻
7月11日晚,月之暗面突然发布重要更新,正式推出Kimi K2模型并同步开源。K2采用MoE架构,总参 数达到1T,激活参数为32B。相较过去的基座模型,K2更强调代码能力和通用Agent任务能力。在SWE Bench Verified、Tau2、AceBench等基准性能测试中,K2达到开源模型SOTA表现。其中,K2在 SWE-bench Verified和SW...
澎湃新闻
在国产大模型竞争日益激烈之际,AI初创公司北京月之暗面科技有限公司(以下简称“月之暗面”)日前发布全新开源模型Kimi K2(以下简称“K2”),试图重新争夺市
每日经济新闻
7月11日晚,月之暗面在深夜突袭,正式发布Kimi K2模型并同步开源。Kimi K2是MoE架构基础模型,具备更强代码能力和通用Agent任务能力,分为基础预训练版和通用指令微调版。Kimi K2的
新浪
7月11日晚,月之暗面突然发布重要更新,正式推出Kimi K2模型并同步开源。K2采用MoE架构,总参 数达到1T,激活参数为32B。相较过去的基座模型,K2更强调代码能力和通用Agent任务能力。在SWE Bench Verified、Tau2、AceBench等基准性能测试中,K2达到开源模型SOTA表现。其中,K2在 SWE-bench Ve...
新浪
7月11日晚,月之暗面突然发布重要更新,正式推出Kimi K2模型并同步开源。K2采用MoE架构,总参数达到1T,激活参数为32B。相较过去的基座模型,K2更强调代码能力和通用Agent任务能力。在SWE Bench Verified、Tau2、AceBench等基准性能测试中,K2达到开源模型SOTA表现。其中,K2在SWE-bench Verified和SWE-...
中文开源技术交流社区
【鸿蒙挑战赛惊现「神秘彩蛋」!代码大神速来解锁】
月之暗面正式公布并开源旗下生成模型 Kimi K2,号称「具备超强代码和 Agent 能力的 MoE 架构基础模型」。
官方介绍,Kimi K2
moonshot.cn
Kimi 是一款AI智能助手,由Moonshot 自研的大语言模型驱动,支持在线搜索、深度思考、多模态推理和超长文本对话。 立即体验 · Kimi 开放平台.
ncsti.gov.cn
Kimi K2是月之暗面于今年7月11日正式发布并同步开源的最新一款具备更强代码能力、更擅长通用智能体任务的专家混合架构基础模型,在SWE Bench Verified(编程 ...
知乎
Kimi K2是月之暗面(Moonshot AI)于2025年7月11日发布的突破性开源大语言模型,拥有1万亿总参数(320亿激活参数),专为"智能体"能力设计。
新华网
北京月之暗面科技有限公司于7月11日推出了Kimi K2。 Kimi K2在编程方面的 ... 与DeepSeek系列模型类似,Kimi K2采用开源协议发布,允许研究人员 ...
pingwest.com
2025年7月11日深夜,月之暗面直接开源了这个万亿参数模型,整个AI圈子一下子就热闹起来。模型的能力很强,尤其是在代码和Agent任务上,没多久,它就和Grok 4 ...
新浪财经_手机新浪网
新浪科技讯7月17日下午消息,近日,不少开发者表示,“接到美国知名编程器Cursor官方通知,基于地理位置的访问限制,一些模型将不再可用,并启动退款流程。
infoq.cn
据官方介绍,作为月之暗面首款开源发布的旗舰模型,Kimi K2 的总参数量达到1 万亿(1T),激活参数为32B,现已在Kimi Web 端和App 端中上线。有网友感叹道,“万亿 ...
文件
[PDF] DeepSeek and Its Fractal Intelligence Architecture January 27, 2025
腾讯
李卓表示,DeepSeek-R1大幅提升的CoT能力,提升了自然语言理解能力,降低了指令使用门槛,使AI应用规模化推广有了可能。他推测,2025年会出现大量的垂直行业、场景应用。同时,显而易见的是,AI也将带来不平等现象,直接可预期的现象包括结构性失业与创业机会、权力的结构性缺失。R1带来的扩散效应,我的判断 交互层 大幅提升的CoT能力,提升了自然语言理解能力,降低了指令使用门槛。AI应用规模化推广有了可能。接下来,...
澎湃新闻
【新智元导读】一觉醒来,DeepSeek-R1成功晋级编程第一梯队,与Claude 4、Gemini 2.5 Pro并列第一。这半年,AI领域群雄逐鹿,进展到哪一步了?权威统计机构SimilarWeb一份报告,给出了解答。编程新王,又有一位玩家成功晋级。刚刚,LMArena公布了最新WebDev Arena排行榜,DeepSeek-R1(0528)冲进第一。新版DeepSeek-R1编程能力,现与Ge...
雪球
2025年,DeepSeek R1横空出世并宣布开源,彻底颠覆AI格局。具体来说,其影响直接体现在两个关键变化上: 一个是大模型的持续迭代。DeepSeek R1的推出,直接激发了其他大模型的快速迭代和创新。Qwen2.5-Max和Grok3等模型相继推出,形成了AI大模型百花齐放的局面。一个是AI端侧应用的加速。随着大模型使用门槛的降低,AI技术逐渐渗透到更多领域。人形机器人、AI眼镜、智能驾驶等端侧应用领域,有望迎来快速增长。AI大...
腾讯云
在2025年1月下旬,DeepSeek发布了他们新的推理模型(DeepSeek R1);该模型在成本仅为一小部分的情况下开发,尽管受到GPU 出口禁令的影响,但其性能仍与OpenAI 的模型相媲美。本报告讨论了该模型,以及其发布对更广泛的生成式AI领域的意义。作者简要讨论了近期中国发布的其他模型,它们的相似性;混合专家(MoE)、强化学习(RL)以及巧妙工程的应用似乎是这些模型能力的关键因素。这篇思考性文章是在紧凑的时间内撰写的,对主题...
腾讯云
在2025年1月下旬,DeepSeek发布了他们新的推理模型(DeepSeek R1);该模型在成本仅为一小部分的情况下开发,尽管受到GPU 出口禁令的影响,但其性能仍与OpenAI 的模型相媲美。本报告讨论了该模型,以及其发布对更广泛的生成式AI领域的意义。作者简要讨论了近期中国发布的其他模型,它们的相似性;混合专家(MoE)、强化学习(RL)以及巧妙工程的应用似乎是这些模型能力的关键因素。这篇思考性文章是在紧凑的时间内撰写的,对主题...
证券之星
智通财经APP了解到,DeepSeek的R1模型发布引发了投资者的担忧,市场担心训练成本曲线加速下降,进而影响数据中心AI硬件需求。摩根大通基于此,发布了针对内存行业的报告。内存行业18个月的增长周期在很大程度上依赖于高端训练GPU对计算需求(HBM)的不断攀升,过去两周,该行业平均股价下跌了11%(费城半导体指数同期下跌9%)。在市场关注GPU需求可能放缓的同时,该行强调,边缘AI迁移带来的内容增长...
中山大学附属中学
DeepSeek R1 is a groundbreaking open-source artificial intelligence(AI)model developed by a small Chinese tech company,DeepSeek.Released in January 2025,this AI system rivals top-tier models like OpenAI’s GPT-4 and O1 in tasks su...
知乎
DeepSeek-R1 Benchmark. 三、DeepSeek对AI行业的影响. DeepSeek-R1技术的开源挑战了AI领域的既定规范,使先进的LLMs得以普及化,并促进了一个更具有竞争 ...
crhcc.com
2025年,DeepSeek推出开源推理大模型R1,性能全球领先,成本大幅降低,应用爆发发展阶段大幅提前,对全球人工智能产业发展有重大影响。
上海东方财富证券投资咨询有限公司
▫ 投资建议:DeepSeek 带动AI 调用、推理成本下降后,AI 应用试错成. 本下降,我们看好2025 年成为AI 应用快速落地,渗透率提升的一年。 我们重点推荐应用生态 ...
hulianhutongshequ.cn
最新数据显示,其旗舰产品DeepSeek-R1上线20天日活突破2000万,下载量横扫全球140个市场榜首,创造了AI应用增速13倍于ChatGPT的行业神话。 下载付件.
智源社区
R1 的训练过程与V3 有所不同,它采用了一系列更新颖的技术,更符合AI 社区的研究前沿,因此也代表着一个快速发展和演进的领域。稍后我们将更详细地分析R1 的 ...
知乎
DeepSeek-R1 (2025):代表了成本效率的一大飞跃,DeepSeek-R1利用专家混合架构(MoE)和优化算法,与许多美国模型相比,运营成本降低了多达50倍。 其开源性质加 ...
auto.gasgoo.com
总体而言,尽管市场对DeepSeek R1是否会影响英伟达芯片需求有讨论,但事实显示,随着智能应用普及和数据处理需求增加,高性能芯片将继续扮演重要角色。R1证明 ...
新华网
2025年1月20日,DeepSeek发布人工智能大模型R1,凭借较少算力资源实现了和全球顶尖AI模型相当的效果,“堆算力”的传统路径被打破,引发AI研发领域巨震。
每日经济新闻
3.7月17日,英国《自然》杂志网站16日发表文章说,中国人工智能(AI)模型Kimi K2发布后引发轰动,世界迎来“又一个DeepSeek时刻”。中国在6个月内推出第二款令人印象深刻的模型,表明这一成功并非偶然。Kimi K2在编程方面的表现尤其出色,在LiveCodeBench(一个专门用于评估大型语言模型编码能力的数据集)等测试中取得了高分。此外,Kimi K2似乎还颇具写作天赋,在一些专业测试中名列前茅。目前,包括硅谷的开源社区...
iimedia.cn
7月14日消息,在国产大模型市场竞争愈演愈烈之际,月之暗面对外发布了全新开源模型Kimi K2,旨在重新占据市场主导地位。有业内人士对此持乐观态度,并指出:“Kimi当前选择的方向比以往更契合市场需求,真正能提供价值的关键在于模型的深度研究能力。该人士进一步判断,大型模型之前所依赖的以低廉Token价格为卖点的竞争策略,将不具备可持续性。宇树科技创始人王兴兴将亮相中外记者见面会 根据国务院新闻办...
今日头条
2025年7月,AI领域迎来重磅事件:Kimi正式发布K2模型,凭借开源架构、每百万tokens仅4元的定价策略及超越Claude Sonnet4的代码能力,迅速引发行业热议。与此同时,国内全场景AI服务平台当贝AI宣布首批接入K2,结合其此前已深度整合的DeepSeek R1-0528、豆包大模型1.6等顶尖模型,进一步巩固了“超级AI工具箱”的生态壁垒。K2爆火:技术开源与成本革命的双重突破
今日头条
2025 年 7 月 11 日,月之暗面(Moonshot AI)正式发布并开源了其最新一代大语言模型 Kimi K2,这是一款专为代码生成和 Agentic 任务设计的万亿参数混合专家(MoE)模型(2)。作为月之暗面首款开源发布的旗舰模型,Kimi K2 在 SWE Bench Verified(编程)、Tau2(智能体)、AceBench(工具调用)这三项基准...
新浪
2025年7月,国内AI领域迎来重大技术突破:由月之暗面推出的Kimi K2模型正式开源,其采用的DeepSeek V3架构与每百万tokens仅4元的定价策略,正在重塑行业竞争格局。值得关注的是,国内知名AI服务平台当贝AI已率先接入该模型,通过聚合包括K2、DeepSeek R1-0528、豆包大模型1.6等在内的十余种顶尖AI能力,持续探索多模型协同的应用边界。技术普惠推动行业升级 K2模型的开...
今日头条
2025年7月11日,全球AI界迎来历史性时刻—月之暗面正式发布Kimi K2模型并全面开源。作为首个突破万亿参数规模的MoE架构基础模型,Kimi K2以1T总参数、32B激活参数的惊人配置,在代码生成、Agent任务等关键领域实现革命性突破,彻底改写开源大模型性能天花板。MoE架构颠覆传统:1万亿参数的"聪明大脑 Kimi K2采用最先进的混合专家(MoE)架构,通过动态路由机制实现"按需激活。这种设计使模型在保持1万亿总参数规模的...
今日头条
2025年7月11日,月之暗面推出的Kimi K2模型犹如一记惊雷震撼AI界。这个采用混合专家架构(MoE)的万亿参数模型,以每秒32B激活参数的运算能力,在编程、工具调用等关键领域刷新了开源模型性能上限。作为首个突破万亿参数门槛的MoE开源模型,Kimi K2不仅将长上下文处理扩展到13万行代码量级,更在智能体任务执行层面展现出接近人类专家的潜力。技术架构:MoE架构的动态革命 技术架构的革新是Kimi K2成功的核心密码。相较传统密...
知乎
月之暗面在2024年8月至2025年6月期间,在中国AI市场的排名从第3位跌至第7位,面临来自DeepSeek等竞争对手的激烈竞争。K2的发布被视为该公司重新夺回市场领导 ...
稀土掘金
Kimi K2凭借其卓越的技术性能、极具竞争力的定价策略和开源共享理念,已成为2025年大模型领域的重要创新:. 市场定位:以"Agentic AI"为核心定位,推动AI从 ...
人民网
H20芯片解禁,怎么看? 本报记者陈静文. 2025年07月22日09:59 | ... 目前,包括硅谷的开源社区等在内的AI开发者都在热议Kimi K2。官方数据显示,其总参数规模达到了万亿 ...
知乎
AI日报- 2025年07月13日今日概览全球AI产业在技术突破与伦理博弈中加速狂飙:OpenAI因安全风险延迟开源模型引发行业震荡,月之暗面Kimi K2万亿参数模型 ...
上海东方财富证券投资咨询有限公司
2025 年7 月17 日. 行业研究/行业周报. 通信行业近一年市场表现. 资料来源 ... 基础模型Kimi K2,总参数量达到1 万亿,激活参数为32B。作为月之暗面 ...
上海东方财富证券投资咨询有限公司
Kimi K2 在预训练. 阶段使用了“MuonClip”优化器实现万亿参数模型的训练,能提高. Token 利用效率,缓解高质量人类数据的短缺问题,应用了大规模. Agentic ...
迈博汇金
如果2025年企业主依然选择长期激进扩张,会影响行业年度盈利和增长。 全球外部因素影响供应链稳定,存在业绩不及预期的风险。 如果外部物流环境 ...
证券之星
根据IDC数据,2025年二季度全球PC设备销量同比继续提升6.5%达到约6800万台,美国地区销量约为1900万台,同比增长0.1%。其中苹果二季度表现最好,全球出货量约 ...
财经网
在此期间,API 调用价格大幅下调:DeepSeek-V3降至原价的50%,DeepSeek-R1更低至25%。DeepSeek表示,鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。DeepSeek持续火爆引起了国内外科技巨头的关注,此前英伟达、微软、亚马逊纷纷宣布接入DeepSeek-R1,展现出对DeepSeek技术的认...
新浪财经_手机新浪网
到了2024年年底,即在DeepSeek V3发布前后,国产大模型在2024年的第二波降价潮再起。2024年12月中旬,字节跳动旗下豆包大模型率先更新价格,豆包视觉理解模型的输入价格为0.003元/千tokens,相比行业平均价格降低了85%。按照这一价格,1元钱可以处理284张720ppi的图片。抖音集团副总裁李亮称,此次降价不是“价格战”,而是豆包大模型在算法、软件工程和硬件方案...
腾讯
R1 和 V3 模型 API 在此时间段内的价格将分别降低 75%和 50%。DeepSeek将这一时间段称为“非高峰时段”,但其实涵盖了欧洲和美国的白天时段,DeepSeek 的低成本 AI 模型上个月 已 引发全球股市的大规模抛售。周三的价格折扣是 DeepSeek 的最新动作,震动了国内外的人工智能行业。熟悉该公司的人士表示,DeepSeek...
今日头条
2025年7月1日,比亚迪、长安、北汽蓝谷集体宣布取消所有限时优惠,中国汽车行业价格战正式熄火;与此同时,一款名为DeepSeek-R1的中国AI模型,正让全球科技巨头彻夜难眠。今日,中国汽车行业迎来历史性转折点。多家头部车企同步宣布终止持续数月的价格战,取消金融方案及“一口价”促销政策。比亚迪销售人员在电话中证实:“除了以旧换新,其他优惠全部叫停。小米YU7创下*单周新增锁单28万台的惊人纪录*,均...
雪球
Q:在竞争格局这方面,DeepSeek V3和R1的API的价格,是否有可能带来新一轮价格战?林达华:当前的价格竞争导致按token计费的利润空间被压缩至成本线,但长期低价服务难以持续。大流量服务商若持续低于成本定价,用户量增长反而加剧亏损,市场终将回归贴近真实成本的合理区间。然而,真正的商业价值并非来自“按字收费”,而在于能否解决高难度业务问题。例如,生成深度行业报告或自主完成复杂任务的能力,其溢价...
手机光明网
2月26日晚间,国产AI大模型DeepSeek在官微宣布,推出错峰优惠活动,北京时间每日00:30至08:30的夜间空闲时段,API调用价格大幅下调,DeepSeek-V3打5折,DeepSeek-R1打2.5折。由于DeepSeek爆火,服务器资源紧张,公司一度暂停API调用,直到近期才重新开放API充值。数据显示,DeepSeek App自上线以来,累计下载量超1.1亿次。DeepSeek称,鼓励用户充分利用这一时段,能够享受更经济...
澎湃新闻
2025 年 2 月 9 日,DeepSeek-V3 结束了发布之初宣布的优惠价格,从原来的输入价格(缓存命中/缓存未命中)每百万 tokens 0.1 元/1 元、输出价格每百万 tokens 2 元,分别有不同程度的上调: 每百万 tokens 输入价格为 0.5 元(缓存命中)、2 元(缓存未命中),输出价格为 8 元。图/DeepSeek ...
21财经
“2025年将是AI商业化落地元年”,林志称。 同时,DeepSeek验证了国内AI产业从芯片到模型是可以部分实现国产替代的,提振了产业信心。春节期间,国内云服务厂商 ...
北京大学新闻网
自2025年1月20日发布,最新开源模型DeepSeek R1在全球范围内引发持续轰动。早在2024年岁末,DeepSeek-V3大模型发布,就迅速成为全球人工智能(AI)领域的 ...
上海东方财富证券投资咨询有限公司
在训练成本方. 面,根据DeepSeek 发布的技术文档论文信息,DeepSeek-V3 的训练时. 长为2788K 个H800 GPU 小时,训练花费约为557.6 万美元。2025 年1. 月20 日 ...
研究生招生网
2025年1月20日,深度求索发布开源AI大模型——DeepSeek-R1,其API服务定价远低于OpenAI的o1模型。1月底,OpenAI免费开放推理模型o3-mini。而后,便是此次百度和OpenAI同天 ...
chinaventure.com.cn
2025年春节前期,中国杭州的一家AI企业DeepSeek(深度求索)接连发布了V3(2024年12月26日)和R1(2025年1月20日)两大开源模型。 ... 价格战烧到海外。
上海东方财富证券投资咨询有限公司
2025年1月,DeepSeek-R1正式发布,R1模型的推理能力得到极大加强,与OpenAl-o1模. 型不相上下且推理过程完全透明,因此在全球范围备受关注。 DeepSeek发展历程.
m.ofweek.com
“ DeepSeek对AI行业深远影响,成本定价体系、市场估值体系、产业上下游生态,都需要达成新的共识。更重要的是DeepSeek使人们看到了'信心','信心'能凝聚 ...
21财经
在TO C产品中,坚持免费的豆包在一年中涨势最猛。根据AI产品榜显示,2025年1月,豆包在国内千万月活俱乐部中排名第一,为7861万,远超其他大厂应用。
新浪财经_手机新浪网
另外,与MiniMax等对手的做法不太相同的地方在于,Kimi此次的开源模型,架构上选择了DeepSeek开发和依赖的MLA(多头潜在注意力),目前技术报告还没发布,从Hugging Face的信息来看,Kimi K2用了结构类似DeepSeek V3的MLA,专家数增加到了384个,激活专家保持在8个。在优化器上Kimi此前的工作也成了此次模型关键。要训练万亿模型,通用的AdamW优化器已面临挑战。Kimi<...
新浪
2025年7月,国内AI领域迎来重大技术突破:由月之暗面推出的Kimi K2模型正式开源,其采用的DeepSeek V3架构与每百万tokens仅4元的定价策略,正在重塑行业竞争格局。值得关注的是,国内知名AI服务平台当贝AI已率先接入该模型,通过聚合包括K2、DeepSeek R1-0528、豆包大模型1.6等在内的十余种顶尖AI能力,持续探索多模型协同的应用边界。技术普惠推动行业...
新浪财经_手机新浪网
据了解,Kimi K2是 北京月之暗面科技有限公司(Moonshot AI)在2025年7月11日 刚推出的一款开源万亿参数大模型,该模型 是一款具备更强代码能力、更擅长通用Agent任务的MoE(Mixture of Experts)混合专家架构的基础模型,它 并非传统的“对话模型”或“推理模型”(即通过逐步逻辑处理查询的模型),而是专注于成为具备智能体能力的大语言模型(LLM),它宣称 目标是能够使用各种工具(如浏览网页或调用数学软件)来执行多步骤任...
article.juejin.cn
朋友们,这绝对是目前 AI 界最炸裂的新闻,Kimi 于2025年7月11日的晚上 22 点55分发布文章,宣布 k2 模型已正式可用,全面上线。相关的评测文章呢,马上就会铺天盖地而来,这里我分享一篇 归藏 老师的文章,其详细评测了 k2 模型的能力,结论就是:前端能力上非常强,基本上在一流梯队,我感觉接近 Claude Sonnet 3.7 和 4 之间。Kimi K2 详测|超强代码和 Agent 能力!内附 Cl...
澎湃新闻
春节期间最热的话题莫过于DeepSeek的横空出世!这几年AI虽然在工程勘察设计行业逐步应用,但应用范围、深度、效果都还处于初步发展阶段。而DeepSeek的出现对于行业而言,将会是颠覆性改变。笔者通
今日头条
在SWE Bench Verified编程测试中,Kimi K2的单尝试准确率达到65.8%,超越了DeepSeek-V3的38.8%和GPT-4.1的54.6%,尽管与Claude Sonnet 4的72.7%还有些许差距,但已然在开源模型里一骑绝尘。在Tool Use能力测试的Tau2基准测试中,面对电信任务,Kimi K2得分65.8,远高于GPT-4.1的38.6和Claude Sonnet 4的45.2,表明它在对接外部工具完成目标任务上能力出...
cls.cn
月之暗面发布万亿参数模型Kimi K2,业内认为Kimi K2或是DeepSeek火出圈后月之暗面最重要的一次发布,这家公司参与了月之暗面的融资,另一家接入了Kimi大模型的API,附Kimi相关公司汇总。相关股票: 创业板 1只 主板 1只 所属专栏:电报解读 2025-07-11 星期五 18:07【机构龙虎榜解读】RDA+数据要素+互联网金融,在上海数交所完成了三个系列产品挂牌,面向银行、证券、...
腾讯
7月17日,英国《自然》杂志网站16日发表文章说,中国人工智能(AI)模型Kimi K2发布后引发轰动,世界迎来“又一个DeepSeek时刻”。中国在6个月内推出第二款令人印象深刻的模型,表明这一成功并非偶然。Kimi K2在编程方面的表现尤其出色,在LiveCodeBench(一个专门用于评估大型语言模型编码能力的数据集)等测试中取得了高分。此外,Kimi K2似乎还颇具写作天赋,在一些专业测试中名列前茅。目前,包括...
新浪财经_手机新浪网
K2发布后,一位Kimi研究员曾经在博客里提到:“ 2025年,智能的上限仍然完全由模型决定,作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多 ...
腾讯
2025年7月20日12:06广东爱范儿官方账号. 关注. Kimi 又火了,在DeepSeek 的热闹中沉寂大半年后,Kimi K2 悄悄在LMArena 竞技场中从DeepSeek 手中,夺过了全球开源第一的 ...
上海东方财富证券投资咨询有限公司
A 股方面,2025 年7 月14 日到2025 年7 月18 日,上证综指(+0.69%),. 深证成指(+2.04%),沪深300(+1.09%),创业板指(+3.17%)。按照申万行. 业分类,在所有行业 ...
知乎
朋友们,这绝对是目前AI 界最炸裂的新闻,Kimi 于2025年7月11日的晚上22 点55分发布文章,宣布k2 模型已正式可用,全面上线。 相关的评测文章呢,马上就会 ...
pingwest.com
月之暗面Infra团队的刘少伟没有绕弯子,他直接承认K2在架构上“大体上是复用了DeepSeek-V3的架构”,并且贴了一张清晰的对比图。图里能看到Kimi选择的路线是“ ...
人民网
与DeepSeek系列模型类似,Kimi K2采用开源协议发布,允许研究人员免费下载并进行本地部署与二次开发。 同时,该模型支持通过应用程序接口调用,其定价显著低于“克劳德4”等主流 ...
澎湃新闻
与之对比,近期更新的Kimi K2,支持最长128K上下文。更早之前更新的 ... 对比DeepSeek,其R1模型使用率,已从2月中旬的峰值7%下降到了4月底的3 ...
上海东方财富证券投资咨询有限公司
根据三方不完全调研数据,企业应用智能开发工具后,2024 年度. 通过AI 生成的代码占全部代码的比例平均为28.17%,相比2023. 年明显提升6% 左右。2024 年度 ...
腾讯
在最新一期的顶刊 Nature 上,该杂志的“NEWS”栏目以“Another DeepSeek moment’:Chinese AI model Kimi K2 stirs excitement(又一个‘DeepSeek时刻’:中国人工智能模型Kimi K2引发热议)”为题,对前两天北京 月之暗面 科技有限公司刚发布的开源模型Kimi K2进行了专门报道。该报道的...
今日头条
又一个deepseek来了。自然杂志最新报道称,中国AI型Kimi K2横空出世,引发全球轰动。这被誉为又一个deepseek时刻,短短6个月内,这是中国第二次推出震撼世界的AI创新产品,标志着中国在人工智能领域的实力绝非偶然。简单来说,Kimi K2由北京月之暗面科技推出,在多项专业测试中表现惊艳。首先它在编程能力上独树一帜,livecodebeach等关键的评测中斩获高分,展示出了与顶尖模型媲美的编码实力。同时其写...
新浪财经_手机新浪网
在最新一期的顶刊 Nature 上,该杂志的“NEWS”栏目以“Another DeepSeek moment’:Chinese AI model Kimi K2 stirs excitement(又一个‘DeepSeek时刻’:中国人工智能模型Kimi K2引发热议)”为题,对前 两天 北京 月之暗面 科技有限公司刚 发布的开源模型 Kimi K2
新华网
与DeepSeek系列模型类似,Kimi K2采用开源协议发布,允许研究人员免费下载并进行本地部署与二次开发。 同时,该模型支持通过应用程序接口调用,其定价显著低 ...
腾讯
7月17日,英国《自然》杂志网站16日发表文章说,中国人工智能(AI)模型Kimi K2发布后引发轰动,世界迎来“又一个DeepSeek时刻”。中国在6个月内推出第二款令人印象深刻的模型,表明这一成功并非偶然。Kimi K2在编程方面的表现尤其出色,在LiveCodeBench(一个专门用于评估大型语言模型编码能力的数据集)等测试中取得了高分。此外,Kimi K2似乎还颇具写作天赋,在一些专业测试中名列前茅。目前,包括硅谷的开源社区等在...
腾讯
7月17日,英国《自然》杂志网站16日发表文章说,中国人工智能(AI)模型Kimi K2发布后引发轰动,世界迎来“又一个DeepSeek时刻”。中国在6个月内推出第二款令人印象深刻的模型,表明这一成功并非偶然。Kimi K2在编程方面的表现尤其出色,在LiveCodeBench(一个专门用于评估大型语言模型编码能力的数据集)等测试中取得了高分。此外,Kimi K2似乎还颇具写作天赋,...
金融界
人工智能领域近期迎来技术突破与应用生态的双重变革。DeepSeek联合北京大学、华盛顿大学发布硬件优化稀疏注意力机制NSA,通过创新架构显著提升长文本处理效率;同时,其开源战略与腾讯等企业的深度合作进
36氪
K2发布,已经引起了全球开发者社区的震动。7月16日,著名的《Nature》杂志发文,表示K2的发布为“另一个DeepSeek时刻”,足见其赞美。
showapi.com
Kimi K2的技术架构与DeepSeek有着高度的相似性,这表明其研发团队在继承前作成功经验的基础上进行了深度优化与创新。两者均采用了模块化设计和分布式训练 ...
qbitai.com
Kimi K2在内部评估中表现出色,Perplexity计划接下来基于K2模型进行后训练。 DeepSeek终于丢了开源第一王座,但继任者依然来自中国. 甚至由于访问的用户太多 ...
知乎
目前模型性能综合实力最强,结合搜索业务的Deep Research是行业标杆。 Grok: https://grok.x.ai/ 一龙马斯克旗下的xAI研发的大模型, ...
新浪财经_手机新浪网
K2是个“偏科”选手,擅长编程、智能体类的任务。在Kimi公布的测评结果中,Kimi K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同 ...
新华网
与DeepSeek系列模型类似,Kimi K2采用开源协议发布,允许研究人员免费下载并进行本地部署与二次开发。同时,该模型支持通过应用程序接口调用,其定价 ...
界面新闻
一名AI大模型投资人给出了更客观的评价,他对界面新闻记者表示,Kimi K2是完成度很不错的产品,但惊艳程度的确不及DeepSeek。 在用户层面,Kimi K2要将自己的 ...
阿里云
Kimi K2发布两天即超越Grok 4的token消耗量 二、技术解析:DeepSeek V3 的“进化体”,训练成本直降80% 1.架构设计:稀疏专家机制(MoE)的极致优化 Kimi K2 采用与 DeepSeek V3 相似的MoE架构,但关键参数大幅调整: 创新点: MuonClip优化器:通过 qk-clip 技术抑制注意力权重爆炸,实现15.5万亿token预训练“零崩溃”;动态路由机制...
腾讯
月之暗面自研的MuonClip优化器,通过一种创新的 qk-clip 技术,有效解决了训练过程中注意力 logits(注意力权重)爆炸的问题,确保了Kimi K2在15.5万亿Tokens的超大规模预训练中“零事故”完成,稳定又高效 2.大规模智能体数据合成:为了训练Kimi 超强的Agent 能力(如何“做事”),月之暗面建立了一个庞大的“虚拟世界”。在这个世界里,AI被赋予成千上...
geekpark.net
另一位月之暗面研发人员、知乎答主 Justin Wong 谈到 Kimi K2 为何会选择开源时称,开源意味着能够借助社区力量完善技术生态,「在我们开源不到 24 小时就看到有社区做出 K2 的 MLX 实现、4bit 量化等等,这些凭我们这点人力真的做不出来」。月之暗面研究员、知乎答主 Dylan 则表示,K2 实际上就是一个刚出生的 baby,虽然略显「灵性」,但和很多已久的 frontier model(前沿模型...
今日头条
7月11日,北京月之暗面科技发布的Kimi K2模型,以其技术特性引发行业关注。该模型采用万亿参数规模的混合专家(MoE)架构,通过动态路由机制实现仅320亿活跃参数的高效推理,在算力成本控制与性能平衡上展现出显著优势。在技术指标层面,Kimi K2在LiveCodeBench编程基准测试中表现突出,其代码生成准确率、逻辑完整性及跨文件上下文一致性指标均达到当前开源模型前列。测试数据显示,针对复杂算法...
腾讯
Kimi K2在SWE-bench Verified上的强劲表现表明它可能最终兑现这一承诺。MuonClip突破:为何这个优化器可能重塑AI训练经济学 月之暗面技术文档中埋藏的一个细节可能比模型的基准分数更重要:他们开发的MuonClip优化器,实现了万亿参数模型的稳定训练,"零训练不稳定性。这不仅是工程成就—可能是范式转变。训练不稳定性一直是大语言模型开发的隐性税收,迫使公司重启昂贵的训练<...
腾讯
2023年成立的中国AI初创公司 月之暗面,刚刚发布了其最新重量级产品Kimi-K2。这是一款 参数规模高达一万亿的开源大模型,以挑战GPT-4.1和Claude Sonnet 4为目标。Kimi-K2没有配备专门的“推理模块”,却依然在多个关键领域打破性能壁垒,这一策略让人想起早前 Deepseek 的发布。该模型采用“专家混合”(Mixture-of-Experts)架构,每次推理时动态激活320亿参数。K...
新浪财经_手机新浪网
据月之暗面介绍,Kimi K2 的预训练阶段使用 MuonClip 优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率,找到新的 Scaling 空间。其他关键技术包括大规模 Agentic Tool Use 数据合成和引入自我评价机制的通用强化学习等。“严格来说,在预训练数据集近似有限且模型配置固定的情况下,token 利用率更高的优化器能产生更多...
infoq.cn
那么,如此“高性价比”的性能提升背后,Kimi 做了哪些技术创新呢? 据月之暗面介绍,Kimi K2 的预训练阶段使用MuonClip 优化器实现万亿参数模型的稳定高效训练 ...
cnblogs.com
MuonClip优化器:通过qk-clip 技术抑制注意力权重爆炸,实现15.5万亿token预训练“零崩溃”; 动态路由机制:按任务激活专家模块(如数学问题→数学专家),避免资源 ...
eu.36kr.com
K2的另一个核心贡献在于,把模型的训练和使用成本又拉到了一个地板价,同时还保持着接近Claude主流模型的性能,主打一个性价比高。 Kimi K2 API的定价是:每百 ...
新浪财经
7月11日深夜,AI初创公司月之暗面发布全球首个开源的万亿参数大模型Kimi K2。该模型在多项基准测试中达到开源模型的SOTA(当前最高水平),API调用成本与 ...
哔哩哔哩
MuonClip 优化器:通过 qk-clip 技术抑制注意力权重爆炸,实现15.5 万亿token 预训练“零崩溃”;; 动态路由机制:按任务激活专家模块(如数学问题→数学专家), ...
上海东方财富证券投资咨询有限公司
图2:Kimi K2 在自主编程等三大能力维度的基准性能测试中取得优秀表现. 资料来源:月之暗面Kimi 官方公众号,民生证券研究院. 图3:Kimi K2 在写作等多 ...
澎湃新闻
而在Kimi K2 上,月之暗面采用了与Grok 4 类似的大规模工具调用方式。 另外,我们可以看到,由于国内算力资源的紧缺局面,新一波大模型技术竞争已经逐渐放弃 ...
hibor.com.cn
Kimi-K2在定价方面具备极高性价比,API输出价$2.50/百万tokens(≈16元RMB),仅为Claude 4 Sonnet的1/5,成本革命或有望引爆开发者生态。叠加MIT开源协议+超大 ...
腾讯
在最新一期的顶刊Nature上,该杂志的“NEWS”栏目以“Another DeepSeek moment’:Chinese AI model Kimi K2 stirs excitement(又.
腾讯
7月17日,英国《自然》杂志网站16日发表文章说,中国人工智能(AI)模型Kimi K2发布后引发轰动,世界迎来“又一个DeepSeek时刻”。中国在6个月内推出第二款令人印象深刻的模型,表明这一成功并非偶然。Kimi K2在编程方面的表现尤其出色,在LiveCodeBench(一个专门用于评估大型语言模型编码能力的数据集)等测试中取得了高分。此外,Kimi K2似乎还颇具写作天赋,在一些专业测试中名列前茅。目前,包括...
虎嗅网
在这一年当中,Kimi的产品发布,包括智能体、深度思考、联网,以及尚未发布的视频生成,都只能说是按部就班。但是Kimi获得了充足的弹药,不仅在开发周期上面可以比较舒缓,没有压力,而且可以铆足了劲儿,在B站砸钱营销,使得大模型推广的价格水涨船高。在豆包积极跟进厮杀之余,连腾讯都熬不住这么玩了。目前混元大模型的能力被植入微信、QQ、读书、输入法等具体的产品内,单行版元宝则处于放养状态,不再用力宣传。这一次轮到DeepSeek
虎嗅网
性价比失守:阿里、字节、百度等低价模型及Kimi K2/Kimi等平替方案,削弱DeepSeek原有价格优势。️ 多模态缺失:作为唯一暂不支持多模态的主流AI助手,削弱其在Agent时代的竞争力。对手猛攻:Kimi、阶跃星辰、智谱AI、MiniMax等密集发布新模型(如128K/100万上下文),在性能参数上发起挑战。AGI优先:梁文锋战略重心在追求AGI和开源生态,对C端应用体验及...
今日头条
在SWE Bench Verified编程测试中,Kimi K2的单尝试准确率达到65.8%,超越了DeepSeek-V3的38.8%和GPT-4.1的54.6%,尽管与Claude Sonnet 4的72.7%还有些许差距,但已然在开源模型里一骑绝尘。在Tool Use能力测试的Tau2基准测试中,面对电信任务,Kimi K2得分65.8,远高于GPT-4.1的38.6和Claude Sonnet 4的45.2,表明它在对接外部工具完成目标任务上能力出...
每日经济新闻
在其公布的测评结果中,Kimi K2在Agentic Coding(自主编程)、Tool Use(工具调用)和Math&Reasoning;(数学推理)三个维度的表现上均超过了同为开源模型的DeepSeek-V3和阿里Qwen3。值得一提的是,Kimi评测中的所有模型均为非思考模型的Kimi-K2-Instruct。目前,Kimi K2的API(应用程序编程接口)服务已上线,支持最长1...
快资讯
连前段时间比较沉寂的月之暗面Kimi,也发布了总参数达到1T的Kimi K2,把大模型的参数从“B时代”拉到“T时代”。反观DeepSeek,其更新迭代的速度似乎比较慢,其使用量在快速下降,甚至慢慢快被人们遗忘了。笔者以前写文章分析过,觉得DeepSeek应该融资—《DeepSeek绝对应该融资!在这篇文章中,笔者当时就曾预言,如果单靠深度求索公司的力量,不融资,不壮大能力,很可能后...
mparticle.uc.cn
《自然》杂志网站更是将Kimi K2发布称为“世界迎来又一个DeepSeek时刻”。月之暗面研发团队也全员在Hugging Face、知乎等平台发声助威,其背水一战的决心可见一斑。对他们而言,K2是一场生死攸关的救赎。如果Kimi K2能够在市场上获得良好的反响,将 有助于月之暗面重新夺回市场份额,提升品牌形象,在AI大模型领域实现困境突围,重回行业第一梯队。03 强敌环伺」 尽管Kimi K2在技术上表现亮眼,月之暗面仍面临诸多强劲对手与严峻挑战。Kimi K2主打“模...
人民网
全球瞭望|《自然》网站:中国AI模型“又一个DeepSeek时刻”. 2025年07月17日 ... 与DeepSeek系列模型类似,Kimi K2采用开源协议发布,允许研究人员免费下载并进行本地部署与 ...
雅虎
依照這個節奏,2025 年6、7 月份,DeepSeek 會有一個比較大的版本更新。 值得一提的是,DeepSeek 於5 月29 日悄然推出強化版R1-0528。雖然架構沒動,但這個 ...
稀土掘金
Kimi K2模型基本信息Kimi K2是由北京月之暗面科技有限公司(Moonshot AI)于2025年7月11日发布 ... Kimi k2发布,效果比肩Sonnet4,价格与DeepSeek一致.
528btc.com
Moonshot 在X 和GitHub 上发布的声明中声称,Kimi K2 在两个关键基准测试中超越了Anthropic 的Claude Opus 4,并在多个领域超越了OpenAI 的GPT-4.1。
稀土掘金
核心动态:DeepSeek R2模型适配华为昇腾910B芯片,训练成本降至600万美元,调用成本较R1下降87%。 ▸ 支持文本/图像/语音/视频多模态处理▸ 带动同有科技、 ...
知乎
本周更新(2025/07/14~2025/07/18)月之暗面:模型与应用更新通用模型Kimi V2;公司简介增加上半年研发情况概括。 7月更新Grok: 模型与应用新增Grok 4;公司简介针对Grok ...
infoq.cn
Kimi K2 发布两天即“封神”?80% 成本优势追平Claude 4、打趴“全球最强AI”,架构与DeepSeek 相似! 华卫. 2025-07-14. 北京. 本文字数:2822 字. 阅读完需:约9 分钟.
cls.cn
【电报解读】月之暗面发布万亿参数模型Kimi K2,业内认为Kimi K2或是DeepSeek火出圈后月之暗面最重要的一次发布,这家公司参与了月之暗面的融资. 2025-07-13 13:04. 【月 ...
infoq.cn
其称,Kimi K2 的设计目的是进一步扩展 Moonlight,其架构与 DeepSeek-V3 相似。基于缩放律分析,他们减少了注意头的数量以提高长上下文效率,并增加了 MoE 的稀疏性以提高 token 效率。在扩展过程中,他们还遇到一个持续的挑战:由爆炸性注意力 logit 引起的训练不稳定性,这个问题在我们的实验中更频繁地出现在 Muon 上,而在 AdamW 上则较少出现...
m.bilibili.com
kimi开源K2,完全继承deepseek架构 采用muonclip优化器token效率更高 基于openai的muon优化器改进,视频播放量 123、弹幕量 0、点赞数 1、投硬币枚数 0、收藏人数 0、转发人数 0,视频作者 龙哥ai炼丹,作者简介 帮程序员+ai能力,帮算法+工程能力,帮老板+ai思维 一身AI技术全靠背,每天背算法,背代码 大厂技术科学家,多家科技公司创始人,相关视频:剑桥大学...
虎嗅网
上个月,MiniMax发布长上下文推理大模型M1与视频生成模型Hailuo02,MoonShot则先后拿出了编程模型Kimi-Dev-72B、深度研究智能体Kimi-Researcher,以及昨晚的K2。但它们效率更高。无论是DeepSeek还是MiniMax或者MoonShot,它们的估值都远低于硅谷同行。其中,MoonShot已经披露的融资总额,约为15亿美元,不够OpenAI烧2个月,只够扎克伯格挖10来个人;x...
今日头条
但Kimi更敢赌,词表扩大到16万token专治专业术语,MuonClip优化器让训练效率飙升,测试榜上代码和Agent任务直接屠榜。真正狠招在开源生态。DeepSeek刚带起开源节奏,Kimi反手就把API兼容OpenAI和Anthropic,开发者无缝切换。社区两天搞出MLX实现和4bit量化,连旅游攻略生成都带着购票链接落地。苏隐团队这步棋下得刁钻,既蹭了竞品基建,又用修改版MIT协议卡住大公司脖子—月活过亿就得...
next.hyper.ai
而在LiveCodeBench测试中,Kimi K2的准确率达到53.7%,比DeepSeek-V3和GPT-4.1分别高出6.8%和9.0%。尤为值得注意的是,在MATH-500测试中的表现,Kimi K2达到了97.4%的准确率,远超GPT-4.1的92.4%。此外,Kimi K2不仅表现优秀,其成本效益也非常显著。与OpenAI和Anthropic动辄数百万美元的计算成本相比,Moonshot ...
稀土掘金
跟之前的 DeepSeek 定价一模一样,而且代码能力更强,128k 上下文。就炸裂到这了吗?不止,四个字:没有限次、没有限次、没有限次。根据我6月份的 AI(Copilot)使用情况来看,我大概 2天(从早上8点用到凌晨2点基本不间断)会用掉 500次 请求次数,一个月就是 7500次 高级请求。那么根据 Copilot 的定价,10美元=500次 高级请求,如果我要像之前一样疯狂使用,那么我一个月得支出 150美元=1077元,这可不是一笔小钱啊。k2 发布后,根据我...
知乎
训练优化器用的Muon,并且引入qk-clip来防止logits 爆炸,应该算是最大规模一次Muon的训练了,这个工作应该是苏建林苏神到moonshot后主导的最主要工作之一。
知乎
Kimi K2 在训练端再次展现了绝技:MuonClip 优化器能完美控制梯度,使得万亿参数的MoE 模型在处理15.5 万亿token 时未出现任何损失峰值,同时所用FLOPs 仅为 ...
cnblogs.com
MuonClip优化器:通过qk-clip 技术抑制注意力权重爆炸,实现15.5万亿token预训练“零崩溃”; 动态路由机制:按任务激活专家模块(如数学问题→数学专家),避免资源 ...
每日经济新闻
... Kimi K2没有使用传统的Adam优化器,而是使用Muon优化器。MuonClip优化器能够稳健支撑万亿参数模型训练,显著提升token利用效率。 Kimi的下一步要走向哪?
至顶网
月之暗面技术文档中埋藏的一个细节可能比模型的基准分数更重要:他们开发的MuonClip优化器,实现了万亿参数模型的稳定训练,"零训练不稳定性"。 这不仅是工程 ...
jdon.com
384个专家模块协同工作(比Deepseek多50%),像特种部队一样各司其职; 独创MuonClip优化器,解决行业老大难训练不稳定问题; 强化学习特训:模拟数千种工具使用 ...
哔哩哔哩
训练效率革命:Token 利用率提升300%. 数据瓶颈突破:在高质量语料稀缺背景下,MuonClip 优化器将Token 利用效率提升3 倍,同等数据量产生更多智能; ...