Toybrick

部署 DeepSeek-R1 和 Janus-Pro (更新中)

jefferyzhang

版主

积分
13757
楼主
发表于 昨天 15:52    查看: 65|回复: 3 | [复制链接]    打印 | 只看该作者
本帖最后由 jefferyzhang 于 2025-2-2 00:41 编辑

目录


* DeepSeek-R1系列模型硬件要求 -- 本楼
* Janus-Pro系列模型硬件要求 -- 本楼
* 常用模型下载地址 -- 本楼
* DeepSeek-R1(文生文) PC本地部署 -- 沙发
* Janus-Pro (文生图)PC本地部署 -- 板凳
* DeepSeek-R1 RK35XX部署 -- 地板



DeepSeek-R1系列模型硬件要求

模型名称 模型参数大小 RAM需求(FP16) RAM需求(INT8) RAM需求(INT4)
DeepSeek-R1 671B>=2600GB>=1400GB>=700GB
DeepSeek-R1-Distill-Qwen-1.5B 1.5B>=8GB>=4GB>=2GB
DeepSeek-R1-Distill-Qwen-7B 7B>= 16GB>=8GB>=4GB
DeepSeek-R1-Distill-Llama-8B 8B>= 16GB>=8GB>=4GB
DeepSeek-R1-Distill-Qwen-14B 14B>= 32GB>=16GB>=8GB
DeepSeek-R1-Distill-Qwen-32B32B>= 64GB>=32GB>=16GB
DeepSeek-R1-Distill-Llama-70B70B>= 140GB>=70GB>=35GB


Janus-Pro系列模型硬件要求

模型名称 模型参数大小 RAM需求(FP16) RAM需求(INT8) RAM需求(INT4)
Janus-Pro-7B 7B>=28GB>=14GB>=7GB
Janus-Pro-1B 1B>=4GB>=2GB>=1GB



备注说明:

1. 数值为理论值,根据系统负载可能会不一致
2. 如果是在PC上使用GPU加速,RAM需求就是为显存需求(内存也不能小于显存大小)
3. 如果是在PC上使用CPU运行,RAM需求就是为内存需求
4. 如果在RK35XX芯片上部署,RAM需求就是DDR大小需求(因为NPU和CPU访问的是同一个DDR空间)
5. 量化因为精度调试要求,并不会所有参数都量化到指定类型,所以实际DDR需求在原始模型和量化模型之间,例如使用rknn工具做w4a8量化(即权重4bit量化,激活值8bit量化),那么DeepSeek-R1-Distill-Qwen-7B实际的量化模型需求会在4G~8GB之间,具体请参看rknn-toolkit和rknn-llm文档
6. 基于性价比考虑,我们在RKNPU端侧上应用部署主要关注7B/8B和1B/1.5B模型




模型下载地址

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B

https://huggingface.co/deepseek-ai/Janus-Pro-1B
https://huggingface.co/deepseek-ai/Janus-Pro-7B


回复

使用道具 举报

jefferyzhang

版主

积分
13757
沙发
 楼主| 发表于 昨天 16:35 | 只看该作者
本帖最后由 jefferyzhang 于 2025-2-2 00:44 编辑

DeepSeek-R1 PC本地部署

1. 系统环境

* 我们以windows wsl2为例,ubuntu 2404 单系统相同,安装GPU加速支持请参看对应设备的文档。
* 接口框架选用ollama
* WSL2建议网络模式使用mirror模式,这样wsl和host共用ip和所有端口,方便访问。
* WSL2不建议打开systemd,用的时候手动开ollama即可,避免开机自动启动

2. 安装ollama

进入wsl ubuntu命令行后,执行:
  1. curl -fsSL https://ollama.com/install.sh | sh
复制代码


3. 运行ollama服务(无systemd情况下手动运行)

  1. ollama serve
复制代码
然后在host端浏览器打开提示地址(例如127.0.0.1:11434),看到“Ollama is running”即成功运行

4. 安装deepseek-r1 (以8b为例)

  1. ollama run deepseek-r1:8b
复制代码


5. 成功运行

模型自动下载成功后,出现 >>> Send a message  代表已经运行成功了,直接输入即可对话,
UI或者其他APP接入时候需要打开wsl中的ollama服务,配置对应的api地址即可。


参考文档:

* OLLAMA官方安装地址:Ollama
* WSL2官方安装文档:安装 WSL | Microsoft Learn
* WSL2 镜像网络模式设置:镜像模式网络
* WSL2 NVIDIA 驱动: 在 WSL 2 上启用 NVIDIA CUDA | Microsoft Learn

回复

使用道具 举报

jefferyzhang

版主

积分
13757
板凳
 楼主| 发表于 昨天 16:36 | 只看该作者
三楼占用
回复

使用道具 举报

jefferyzhang

版主

积分
13757
地板
 楼主| 发表于 昨天 16:36 | 只看该作者
四楼备用
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

产品中心 购买渠道 开源社区 Wiki教程 资料下载 关于Toybrick


快速回复 返回顶部 返回列表