2025年大型语言模型论文精选
2025/09/01·StepFun can make mistakes, check important info.
[PDF] Toward Super Agent System with Hybrid AI Routers
arXiv LLM 论文推荐(2025.3.11-3.17)
文章浏览阅读552次,点赞7次,收藏10次。本文对一周arxiv上新推出的LLM论文做了一些阅读推荐,欢迎大佬们批评指正!
北航等联合2025综述:LLM大模型集成方法论及最新论文集汇总
LLM Ensemble大模型集成分类方法对应大量的论文集,列表如下: (1)推理前的集成 ✅ 预训练路由器 LLM Routing with Benchmark Datasets.(2023)RouteLLM:Learning to Route LLMs with Preference Data.(2024)Hybrid LLM:Cost-Efficient and Quality-Aware Query Routing.(2024)...
以下是一些2025年关于大型语言模型(LLM)的论文推荐:
1. Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
- 作者:袁境阳等
- 会议:ACL 2025 最佳论文
- 摘要:本文提出了一种名为NSA(Natively trainable Sparse Attention,原生可训练稀疏注意力)的创新性稀疏注意力机制,旨在解决传统注意力机制在处理长文本时的高计算开销问题。NSA通过动态分层稀疏策略,结合粗粒度的token压缩与细粒度的token选择,实现了高效的长上下文建模。该方法不仅在推理阶段显著加速,还支持端到端训练,在降低预训练计算开销的同时不损失模型性能7。
- 论文链接:https://arxiv.org/html/2502.11089
2. MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses
- 作者:未知
- 会议:ICLR 2025
- 摘要:本文探讨了大型语言模型(LLM)在仅依赖化学研究背景信息的情况下,自动发现新的、有效的化学科学假设的能力。研究结果表明,LLM可以自主发现新颖且可行的科学假设,甚至可以重新发现那些已经发表在顶级化学期刊上的科学假设。该研究不仅提供了关于科学假设形成的数学建模,还提出了Agentic AI for scientific discovery的框架,为AI在科学研究中的应用提供了新思路6。
- 论文链接:https://arxiv.org/abs/2410.07076
3. Dobi-SVD: Differentiable SVD for LLM Compression
- 作者:未知
- 会议:ICLR 2025
- 摘要:本文提出了一种名为Dobi-SVD的可微奇异值分解(SVD)方法,用于大型语言模型(LLM)的压缩。该方法通过优化截断位置和权重更新,实现了高压缩率与性能的完美平衡。Dobi-SVD无需原始预训练数据,可以与其他压缩技术(如知识蒸馏、结构化剪枝等)融合,进一步提升压缩效率9。
- 论文链接:https://arxiv.org/abs/2503.11832v1(注:实际论文链接可能有所不同,请根据具体信息查找)
4. Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning
- 作者:未知
- 摘要:本文识别并描述了一种此前未曾报道过的现象,即“安全幻象”,凸显了视觉语言模型(VLM)在监督式安全微调方面存在的关键局限性。文章提出了一种替代方法——机器学习(MU),为现有范式提供了一种新颖的应用,以解决安全问题,显著提高了稳健性并减少了不必要的拒绝2。
- 论文链接:http://arxiv.org/abs/2503.11832v1
5. SciFi-Benchmark: How Would AI-Powered Robots Behave in Science Fiction Literature?
6. Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium
7. Mutarjim:推进双向阿拉伯语-英语翻译
8. Qwen3技术报告
- 作者:未知
- 摘要:本技术报告介绍了Qwen3,这是一个全新的自然语言处理(LLM)系列,