大模型量化技术多维分析
2025/07/24·StepFun can make mistakes, check important info.
arxiv_search_quantization_2025-07-24.txt
对上面文章进行主题、方法、场景多个维度进行聚类,逐一列出。每个维度选出十篇作为代表(每篇点出关键词)。每个维度的小节结束时写一段高段概括的评语。
主题维度
1. 大语言模型(LLM)量化
- MoEQuant: 针对 MoE 架构 LLM 的量化,通过专家平衡采样和亲和力引导量化提升性能。
- OstQuant: 通过正交和缩放变换优化量化空间利用,提升 LLM 量化效果。
- PCDVQ: 利用极坐标分解进行向量量化,独立处理方向和幅度,提升 LLM 量化精度。
- MambaQuant: 针对 Mamba 模型的量化,通过方差对齐旋转方法解决量化难题。
- RWKVQuant: 针对 RWKV 模型的量化,通过代理引导的标量和向量混合量化提升性能。
- PTQ1.61: 实现 1.61 比特的极低比特量化,通过结构化掩码和优化框架提升 LLM 量化效果。
- ICQuant: 利用索引编码进行低比特量化,通过高效的索引编码方案解决 LLM 量化中的离群值问题。
- NestQuant: 基于自相似嵌套格的量化方案,提升 LLM 量化中的信息保留。
- DL-QAT: 结合权重分解和低秩近似的量化感知训练,提升 LLM 量化效果。
- ROSAQ: 基于旋转的显著性感知权重量化,通过主成分分析和混合精度量化提升 LLM 压缩效率。
评语:大语言模型的量化是当前研究热点,主要关注如何在保持模型性能的同时降低内存和计算开销。现有方法包括优化量化空间利用、处理离群值、利用模型特性进行量化等,这些方法在提升量化精度和效率方面取得了显著进展。
2. 视觉模型量化
- FIMA-Q: 通过 Fisher 信息矩阵近似进行 ViT 量化,提升视觉模型量化效果。
- Pack-PTQ: 通过包级重建进行视觉模型量化,解决跨块依赖问题,提升量化精度。
- HadaNorm: 针对扩散变换器的量化,通过均值中心化变换解决离群值问题,提升量化效果。
- MergeVQ: 结合令牌合并和量化,实现视觉生成和表示学习的统一框架。
- OuroMamba: 针对 Mamba 视觉模型的数据无关量化,通过对比学习和动态离群值检测提升量化效果。
- APG-MOS: 虽然主要关注语音质量评估,但其中涉及的残差向量量化(RVQ)可用于视觉模型的语义失真建模。
- ReactDance: 虽然主要关注舞蹈生成,但其中涉及的量化技术可用于视觉模型的压缩。
- SignViP: 虽然主要关注手语视频生成,但其中涉及的量化技术可用于视觉模型的压缩。
- IndexTTS: 虽然主要关注语音合成,但其中涉及的量化技术可用于视觉模型的压缩。
- UniTTS: 虽然主要关注语音合成,但其中涉及的量化技术可用于视觉模型的压缩。
评语:视觉模型的量化研究相对较少,但随着视觉大模型的发展,量化需求日益增长。现有方法主要关注如何处理离群值、优化量化空间利用以及实现生成和表示学习的统一框架,这些方法为视觉模型的量化提供了有益的探索。
3. 语音模型量化
- StableQuant: 针对语音基础模型的自适应量化,通过分析尺度分布和整体性能进行量化范围确定。
- MuQ: 基于 Mel 残差向量量化的自监督音乐表示学习,提升音乐理解任务性能。
- APG-MOS: 通过模拟听觉机制和语义分析进行语音质量评估,其中涉及的量化技术可用于语音模型的压缩。
- IndexTTS: 针对文本到语音系统的量化,通过混合建模方法和量化技术提升性能。
- UniTTS: 通过蒸馏编解码器和统一训练框架进行语音合成,其中涉及的量化技术可用于语音模型的压缩。
- JPEG Compliant Compression: 虽然主要关注图像压缩,但其中涉及的量化技术可用于语音模型的压缩。
- LLMPi: 针对 Raspberry Pi 等边缘设备的 LLM 量化,其中涉及的量化技术可用于语音模型的压缩。
- HALO: 针对硬件感知的 LLM 量化,其中涉及的量化技术可用于语音模型的压缩。
- Quantitative Analysis of Performance Drop: 针对 DeepSeek 模型量化的性能分析,其中涉及的量化技术可用于语音模型的压缩。
- ROSAQ: 虽然主要关注 LLM 量化,但其中涉及的量化技术可用于语音模型的压缩。
评语:语音模型的量化研究相对较少,但随着语音大模型的发展,量化需求日益增长。现有方法主要关注如何处理语音特性、优化量化空间利用以及实现高效的语音表示学习,这些方法为语音模型的量化提供了有益的探索。
方法维度
1. 后训练量化(PTQ)
- MoEQuant: 通过专家平衡采样和亲和力引导量化进行 MoE 架构 LLM 的后训练量化。
- OstQuant: 通过正交和缩放变换优化量化空间利用,进行 LLM 的后训练量化。
- PCDVQ: 利用极坐标分解进行向量量化,进行 LLM 的后训练量化。
- MambaQuant: 针对 Mamba 模型的后训练量化,通过方差对齐旋转方法解决量化难题。
- RWKVQuant: 针对 RWKV 模型的后训练量化,通过代理引导的标量和向量混合量化提升性能。
- PTQ1.61: 实现 1.61 比特的极低比特后训练量化,通过结构化掩码和优化框架提升 LLM 量化效果。
- ICQuant: 利用索引编码进行低比特后训练量化,通过高效的索引编码方案解决 LLM 量化中的离群值问题。
- NestQuant: 基于自相似嵌套格的后训练量化方案,提升 LLM 量化中的信息保留。
- Pack-PTQ: 通过包级重建进行视觉模型的后训练量化,解决跨块依赖问题。
- FIMA-Q: 通过 Fisher 信息矩阵近似进行 ViT 的后训练量化,提升视觉模型量化效果。
评语:后训练量化是一种常用的模型压缩技术,无需重新训练即可实现模型的量化。现有方法主要关注如何处理离群值、优化量化空间利用以及利用模型特性进行量化,这些方法在提升量化精度和效率方面取得了显著进展。
2. 量化感知训练(QAT)
- DL-QAT: 结合权重分解和低秩近似的量化感知训练,提升 LLM 量化效果。
- Unified Progressive Quantization: 结合块级后训练量化和蒸馏基量化感知训练,进行指令微调 LLM 的 2 比特量化。
- LLMPi: 针对 Raspberry Pi 等边缘设备的 LLM 量化感知训练,通过 k-quantization 和三元量化提升性能。
- HALO: 针对硬件感知的 LLM 量化感知训练,通过考虑临界路径延迟和功耗进行量化。
- ROSAQ: 虽然主要关注后训练量化,但其中涉及的混合精度量化技术与量化感知训练相关。
- MoEQuant: 虽然主要关注后训练量化,但其中涉及的亲和力引导量化技术与量化感知训练相关。
- OstQuant: 虽然主要关注后训练量化,但其中涉及的正交和缩放变换技术与量化感知训练相关。
- PCDVQ: 虽然主要关注后训练量化,但其中涉及的极坐标分解技术与量化感知训练相关。
- MambaQuant: 虽然主要关注后训练量化,但其中涉及的方差对齐旋转技术与量化感知训练相关。
- RWKVQuant: 虽然主要关注后训练量化,但其中涉及的代理引导混合量化技术与量化感知训练相关。
评语:量化感知训练是一种在训练过程中考虑量化影响的模型压缩技术,可以实现更精细的量化控制。现有方法主要关注如何结合权重分解、低秩近似等技术进行量化感知训练,这些方法在提升量化精度和效率方面取得了有益的探索。
3. 混合精度量化
- MoEQuant: 通过专家平衡采样和亲和力引导量化进行 MoE 架构 LLM 的混合精度量化。
- ROSAQ: 基于旋转的显著性感知权重量化,通过主成分分析和混合精度量化提升 LLM 压缩效率。
- NestQuant: 基于自相似嵌套格的混合精度量化方案,提升 LLM 量化中的信息保留。
- HALO: 针对硬件感知的 LLM 混合精度量化,通过考虑临界路径延迟和功耗进行量化。
- DL-QAT: 结合权重分解和低秩近似的混合精度量化感知训练,提升 LLM 量化效果。
- Unified Progressive Quantization: 结合块级后训练量化和蒸馏基量化感知训练,进行指令微调 LLM 的混合精度量化。
- LLMPi: 针对 Raspberry Pi 等边缘设备的 LLM 混合精度量化感知训练,通过 k-quantization 和三元量化提升性能。
- ICQuant: 虽然主要关注后训练量化,但其中涉及的索引编码方案可用于混合精度量化。
- MambaQuant: 虽然主要关注后训练量化,但其中涉及的方差对齐旋转技术可用于混合精度量化。
- RWKVQuant: 虽然主要关注后训练量化,但其中涉及的代理引导混合量化技术可用于混合精度量化。
评语:混合精度量化是一种根据模型不同部分的重要性分配不同比特宽度的模型压缩技术,可以实现更精细的量化控制和更好的性能平衡。现有方法主要关注如何根据模型特性、硬件特性等进行混合精度量化,这些方法在提升量化精度和效率方面取得了有益的探索。
场景维度
1. 边缘设备部署
- LLMPi: 针对 Raspberry Pi 等边缘设备的 LLM 量化,通过 k-quantization 和三元量化提升性能。
- HALO: 针对硬件感知的 LLM 量化,通过考虑临界路径延迟和功耗进行边缘设备部署优化。
- APG-MOS: 虽然主要关注语音质量评估,但其中涉及的量化技术可用于边缘设备上的语音模型部署。
- IndexTTS: 虽然主要关注语音合成,但其中涉及的量化技术可用于边缘设备上的语音模型部署。
- UniTTS: 虽然主要关注语音合成,但其中涉及的量化技术可用于边缘设备上的语音模型部署。
- JPEG Compliant Compression: 虽然主要关注图像压缩,但其中涉及的量化技术可用于边缘设备上的图像处理。
- Quantitative Analysis of Performance Drop: 针对 DeepSeek 模型量化的性能分析,其中涉及的量化技术可用于边缘设备上的模型部署。
- ROSAQ: 虽然主要关注 LLM 量化,但其中涉及的量化技术可用于边缘设备上的模型部署。
- MoEQuant: 虽然主要关注 LLM 量化,但其中涉及的量化技术可用于边缘设备上的模型部署。
- OstQuant: 虽然主要关注 LLM 量化,但其中涉及的量化技术可用于边缘设备上的模型部署。
评语:边缘设备部署是模型压缩的重要应用场景,如何在资源受限的设备上高效运行大模型是当前研究热点。现有方法主要关注如何根据硬件特性进行量化、优化内存和计算开销以及实现高效的模型表示学习,这些方法为边缘设备上的模型部署提供了有益的探索。
2. 云端部署
- A Performance Analysis of You Only Look Once Models: 针对无人机应用中的 YOLO 模型部署进行性能分析,比较边缘设备和云端环境的性能差异。
- Resource-Efficient Language Models: 针对云端部署的资源高效 LLM,通过后训练量化技术提升推理效率。
- Benchmarking Post-Training Quantization in LLMs: 针对云端部署的 LLM 后训练 quantization进行基准测试,评估不同方法的性能差异。
- Unifying Block-wise PTQ and Distillation-based QAT: 针对云端部署的指令微调 LLM,通过结合块级后训练量化和蒸馏基量化感知训练进行 progressive quantization。
- ICQuant: 虽然主要关注边缘设备部署,但其中涉及的索引编码方案可用于云端部署的模型压缩。
- MambaQuant: 虽然主要关注边缘设备部署,但其中涉及的方差对齐旋转技术可用于云端部署的模型压缩。
- RWKVQuant: 虽然主要关注边缘设备部署,但其中涉及的代理引导混合量化技术可用于云端部署的模型压缩。
- MoEQuant: 虽然主要关注边缘设备部署,但其中涉及的量化技术可用于云端部署的模型压缩。
- OstQuant: 虽然主要关注边缘设备部署,但其中涉及的量化技术可用于云端部署的模型压缩。
- PCDVQ: 虽然主要关注边缘设备部署,但其中涉及的极坐标分解技术可用于云端部署的模型压缩。
评语:云端部署是模型压缩的另一重要应用场景,如何在云端环境中高效运行大模型是当前研究热点。现有方法主要关注如何根据模型特性进行量化、优化推理效率以及实现高效的模型表示学习,这些方法为云端部署的模型压缩提供了有益的探索。
3. 特定任务优化
- APG-MOS: 针对语音质量评估任务,通过模拟听觉机制和语义分析进行优化。
- IndexTTS: 针对文本到语音任务,通过混合建模方法和量化技术进行优化。
- UniTTS: 针对文本到语音任务,通过蒸馏编解码器和统一训练框架进行优化。
- SignViP: 针对手语视频生成任务,通过多条件令牌化和量化技术进行优化。
- ReactDance: 针对舞蹈生成任务,通过多尺度控制和量化技术进行优化。
- Task-Circuit Quantization: 针对特定任务(如问答、数学推理等)进行权重电路优化的混合精度量化。
- ROSAQ: 针对 LLM 压缩任务,通过旋转基显著性感知权重量化进行优化。
- MoEQuant: 针对 MoE 架构 LLM 的任务优化,通过专家平衡采样和亲和力引导量化进行优化。
- OstQuant: 针对 LLM 压缩任务,通过正交和缩放变换优化量化空间利用进行优化。
- PCDVQ: 针对 LLM