Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ollama-0.5.4-ipex-llm A770 16G Deepseek-R1:14b Deepseek-R1:32b 配置问题 #12897

Open
XL-Qing opened this issue Feb 25, 2025 · 0 comments
Open

Comments

@XL-Qing
Copy link

XL-Qing commented Feb 25, 2025

标题: 关于Intel GPU运行Ollama-ipex-llm的性能表现与功能咨询

问题背景

基于开发组发布的 ollama-0.5.4-ipex-llm(20250222 版本),用户通过 Intel GPU(如 A770 16G)在 Windows 11 下实现了免安装部署 DeepSeek 本地大模型。该方案降低了I卡用户在win11下部署DeepSeek本地大模型的门槛,对小白来说十分友好(尤其在 B 站引发广泛关注)。这也使得I卡中A770 16G大显存的优势在蒸馏版DeepSeek本地大模型部署上得到体现。

环境描述

硬件配置

  • CPU: AMD Ryzen 5 5600G (超频)
  • GPU:
    • 主显卡: Intel Arc A770 16GB (Driver 6460)
    • 副显卡: NVIDIA P106-100 6GB (未启用)
  • 内存: 48GB DDR4 3200MHz (16+8+16+8 非对称双通道超频)

软件版本

  • 使用编译版本: ollama-0.5.4-ipex-llm (20250222)
  • 操作系统: Windows 11

当前配置方案

:: start-ollama.bat 参数设置
@echo off
setlocal
set OLLAMA_NUM_GPU=999      :: GPU层数调控(A770总层数显示65)
set no_proxy=localhost,127.0.0.1  :: 本地部署
set IPEX_LLM_NUM_CTX=16384  :: 扩展上下文长度
set ZES_ENABLE_SYSMAN=1     :: GPU资源调用
set SYCL_CACHE_PERSISTENT=1 :: 持久化代码缓存
@REM set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1 ::?
set OLLAMA_KEEP_ALIVE=-1    :: 避免模型重复加载
set ONEAPI_DEVICE_SELECTOR=level_zero:0 :: 指定GPU0
cd /d %~dp0
start "" ollama.exe serve
cmd /k

性能测试数据

模型/参数 GPU层数 Prompt速率(t/s) Eval速率(t/s) CPU占用 GPU占用 内存占用
DeepSeek-14b(Q4_KM) 999 232.24 10.34 30% 85% 22%
DeepSeek-32b(Q4_KM) 999 8.19 1.99 18% 100% 39%
DeepSeek-14b(Q4_KM) 26 6.24 5.98 85% 30% 37%
DeepSeek-32b(Q4_KM) 26 48.62 2.75 80% 17% 54%
DeepSeek-14b(Q4_KM) 0 11.95 4.16 100% 1% 48%
DeepSeek-32b(Q4_KM) 0 5.12 1.92 100% 1% 72%

注:空闲状态资源占用为CPU 15%/GPU 1%/内存 16%

观察总结

  1. 当GPU显存充足时(A770 16G运行14b模型),推理效率显著提升(eval速率10.34t/s)
  2. 显存不足时(32b模型),系统自动降级为CPU+内存混合计算,此时性能大幅下降

功能咨询

  1. 文档完善请求
    能否提供更详细的参数调优指南?特别是关于:

    • OLLAMA_NUM_GPU 与显存占用的量化关系
    • SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 的实际作用
    • 内存/显存分配策略的配置方法等
  2. 多GPU支持
    如果配置双A770 16G显卡:

    • 是否支持显存叠加运行32b模型?
    • 能否通过SLI/NVLink类技术实现算力聚合?
    • 多卡环境下ONEAPI_DEVICE_SELECTOR的正确配置方式
  3. 硬件兼容性

    • 当前版本是否限定仅支持Intel GPU?未来是否计划支持:
      • AMD GPU (通过ROCm)
      • NVIDIA GPU (通过CUDA)
    • 异构显卡(P106+A770)的协同计算可能性
  4. 资源监控疑问
    当设置OLLAMA_NUM_GPU=0时:

    • ollama ps显示GPU占用19%,但Intel驱动面板无活动
    • 是否存在监控指标错位?19%是否实际为共享显存占用?
    • 能否强制禁用内存回退,保持纯CPU+GPU计算模式?
  5. 硬件路线图
    据传Intel将推出B770 24GB型号,请问:

    • 该产品是否在官方路线图中?
    • 预计何时上市?
    • 现有架构是否预留了对此新硬件的支持?
  6. 单卡性能优化方案咨询
    除调整 GPU 层数外,是否还有其他方式可提升 A770 16G 单卡的推理能力:

    • 例如?
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant