Ollama多卡推理配置指南

Ollama多卡推理配置指南

2025/05/27·StepFun can make mistakes, check important info.

ollama支持多卡推理设置

Reason

来源

配置 Ollama 使用 GPU 加速模型推理 - CSDN博客

以下是配置 Ollama 使用 GPU 加速推理的详细步骤，综合多平台（Windows/ Linux /Docker）和不同显卡类型（NVIDIA/Intel）的解决方案： 1. 验证 GPU 驱动. 确保安装最新版显卡驱动，支持 SYCL 和 oneAPI 工具链 1。 2. 安装 CUDA 工具包. 从 NVIDIA 官网下载对应版本 CUDA Toolkit。安装 Intel® oneAPI Base Toolkit 和 Intel® Extension for PyTorch 1。 # 添加 PARAMETER num_gpu 35 .

CSDN博客

ollama部署deepseek, 多显卡负载均衡 - ForLivetoLearn - 博客园

ollama部署不再过多描述, 我这有两张4090显卡, ollama run之后查看显卡资源只有一张再用, 想要配置成两张负载均衡使用,需要在service文件中添加如下 Environment="CUDA_VISIBLE_DEVICES=0,1" 代表让ollama能识别到第

cnblogs.com

基于ollama部署的DeepSeek蒸馏模型，如何使用多GPU能力 ...

对于有多张卡的场景下， ollama 下如何利用多卡提高 DeepSeek 蒸馏模型的并发性能，均衡使用 GPU 卡，此处 4 张 24GB 显卡部署 deepseek-r1:32b 蒸馏模型为例：步骤1 查看GPU使用：登录虚拟机后，查看 GPU 使用情况，执行下面命令. watch -n 1 nvidia-smi. 执行后，展示如下：可以看到只有 1 张卡在运行.

华为云

13 web pages

思考过程

好的，我现在需要回答用户关于Ollama如何支持多卡推理设置的问题。首先，我需要整理之前提供的搜索结果，看看有哪些相关的配置方法和步骤。

根据搜索结果，用户主要提到了几个关键点。例如，在CSDN的博客中，提到了修改Ollama的service文件，添加环境变量如CUDA_VISIBLE_DEVICES和OLLAMA_SCHED_SPREAD来启用多卡负载均衡。另外，还有关于使用Docker部署时配置NVIDIA Container Toolkit的步骤，以及在Windows和Linux系统中设置不同的环境变量。

另一个来源是博客园的文章，其中提到在service文件中添加CUDA_VISIBLE_DEVICES=0,1来让Ollama识别多张显卡。华为云社区的案例则详细说明了如何通过修改配置文件并重启服务来实现四张显卡的均衡使用，并通过性能测试验证效果。

还有关于使用EvalScope进行压力测试的内容，显示在配置多卡后吞吐量有所提升。不过也有用户反馈性能提升不明显，但显存使用更均衡。此外，一些技术分析指出，Ollama本身可能不直接支持多卡并行，需要依赖底层框架如PyTorch的DataParallel或手动调整配置。

总结下来，配置多卡推理的关键步骤包括：设置环境变量指定可见的GPU设备，启用负载均衡参数，调整模型参数文件，以及可能的Docker配置。同时，需要注意不同显卡类型（NVIDIA和Intel）的驱动和工具链安装，以及重启服务使配置生效。可能还需要性能测试来验证配置效果，并根据显存情况调整参数。

根据搜索结果，Ollama支持多卡推理设置主要通过环境变量和配置文件调整实现，以下是核心配置方法 2 3 9：

指定可用GPU设备
通过设置CUDA_VISIBLE_DEVICES环境变量显式声明可用显卡ID：

bash

启用负载均衡
在Ollama服务配置文件中（如/etc/systemd/system/ollama.service）添加以下参数：

ini

Docker多卡部署
使用NVIDIA Container Toolkit启动容器：

bash

性能验证
通过以下命令监控多卡利用率：

bash

注意事项

此方案在32B模型+4卡场景下实测吞吐量提升约40% 3
需确保驱动版本（NVIDIA ≥CUDA 11.8，Intel需支持SYCL）和显存容量满足模型要求
若性能提升不明显，可尝试调整num_gpu参数平衡显存与速度 4