【教程】在Toybrick 3588开发板上运行类ChatGPT模型LLama-7b

[复制链接] · 发表于 2023-3-23 17:49:27

本帖最后由 jefferyzhang 于 2023-4-6 16:52 编辑

使用模型：

Meta LLama-7B 斯坦福精调版，4bit量化，总大小不超过4G
更新：中文预训练模型

相关地址：

1. Meta LLama  项目地址
2. LLama.cpp
3. 斯坦福精调模型4bit量化版 ALPACA
4. 斯坦福精通模型入口
5. RK3588性能参数
6. Chinese-ChatLLama

傻瓜包下载

For Toybrick RK3588X Debian11 :
链接：https://pan.baidu.com/s/1ReMIxsSKlXlXQjGYtEYkAQ?pwd=toyb
提取码：toyb

中文预训练模型：
https://huggingface.co/P01son/ChatLLaMA-zh-7B-int4

使用方式：

1. 将 llama4b.tar.gz 拷贝到开发板用户目录下
2. 执行 tar -xzvf llama4b.tar.gz 解压开发包
3. cd llama4b
4. 执行 ./main -m ./models/ggml-alpaca-7b-q4.bin --color -f ./prompts/alpaca.txt -ins
5. 开始对话（除英文以外语言训练的不是很好）

中文模型（或其他下载的预训练模型）：
1. 下载模型chatllama-ggml-q4_0.bin和tokenize.model
2. 拷贝到开发板
3. 执行  ./main -m ./models/chatllama-ggml-q4_0.bin --color -f ./prompts/alpaca.txt -ins

高级玩法：

1. 自己编写prompts/xxx.txt ，制造相关提示和准则
2. 执行  ./main -m ./models/ggml-alpaca-7b-q4.bin --color -f ./prompts/xxx.txt -ins
3. 开始对话

关于模型体验：

1. 对除英文以外的语言理解不是很好，应该是模型训练时候缺少中文语料造成的
1. （更新）使用中文预训练模型，可以发现中文对话能力大大提升。
2. 虽然体量很小，但也已经具备了NLU和NLG的功能了，接近GPT-3
3. 如果针对某些特定领域或者文档进行fine-tune，做一个FAQ机器人错错有余。

关于Toybrick RK3588X体验：

1. 目前是纯CPU运算，速度尚可，回答速度较慢
2. 完全可以使用NPU来运算模型中的卷积部分，优化潜力很大。
3. 目前4bit量化仅需4GB DDR可运行，3588还有很大潜力，可能可以尝试运行更大版本的模型

实用价值

1. 端侧离线GPT有很大商用价值，配合语音识别可用于语音助手，搭载在音箱、汽车、可穿戴设备等各个领域，无需联网
2. 可用于文档和知识整合，做FAQ机器人，用在IM自动回复、开发板开发辅助、聊天机器人等领域。
3. 可用于离线翻译、残障辅助、协助使用搜索引擎搜索等更加宽泛的领域。

中文预训练：

只看该作者 · 发表于 2023-3-24 14:37:55

很高级的样子

只看该作者 · 发表于 2023-3-29 10:00:11

请问该教程对于RK3399proX板子也适用吗

只看该作者 · 发表于 2023-3-29 10:41:41

本帖最后由 jefferyzhang 于 2023-3-29 10:43 编辑

Huskie 发表于 2023-3-29 10:00
请问该教程对于RK3399proX板子也适用吗

理论适用，只要你内存够就行，你最好实地跑下，3399prod卖的开发板的最大内存是4G，很极限。

只看该作者 · 发表于 2023-4-6 16:46:29

更新中文预训练权重

只看该作者 · 发表于 2024-4-3 09:10:40

现在RK3588的npu上能跑llm模型吗？我在其他博客上看到的是使用上面的Mali G610跑通的llm。

只看该作者 · 发表于 2024-4-3 16:03:33

chenbinbin 发表于 2024-4-3 09:10
现在RK3588的npu上能跑llm模型吗？我在其他博客上看到的是使用上面的Mali G610跑通的llm。 ...

可以的，我们今年开发者大会就有演示

【教程】在Toybrick 3588开发板上运行类ChatGPT模型LLama-7b

本帖子中包含更多资源