Toybrick

标题: 连续模型推理,出现 GPU[0] hang [打印本页]

作者: SimleLi    时间: 2020-7-3 20:59
标题: 连续模型推理,出现 GPU[0] hang
本帖最后由 SimleLi 于 2020-7-3 21:04 编辑

硬件环境:
TB-96AIOT 开发板

软件环境:
官方提供的固件 rk1808-tb-96aiot-sdk-codes20200605.tar
D RKNNAPI: ==============================================
D RKNNAPI: RKNN VERSION:
D RKNNAPI:   API: 1.3.0 (c5654ea build: 2019-12-25 14:12:00)
D RKNNAPI:   DRV: 1.3.1 (6ebb4d7 build: 2020-01-02 09:37:58)
D RKNNAPI: ==============================================

问题描述:
从网络摄像头读取图片,进行连续推理时,出现 rknn_outputs_get 时常阻塞。
dmesg 出现以下log:
[  128.837111] [galcore]: GPU[0] hang, automatic recovery.
[  128.842481] [galcore]: recovery done
[  158.885167] [galcore]: GPU[0] hang, automatic recovery.
[  158.890480] [galcore]: recovery done
[  198.949072] [galcore]: GPU[0] hang, automatic recovery.
[  198.954350] [galcore]: recovery done

推理降为1秒推理一次时,依然会出现上述情况。
注:推理的模型是自己设计的语义分割模型,使用的是 pytorch。



作者: jefferyzhang    时间: 2020-7-4 10:16
请都先升级到最新版本1.3.2 后再试下,NPU部门不会接受旧版本的bug提交的
作者: zhangzj    时间: 2020-7-6 08:40
是否有开启预编译?有的话关掉预编译再跑看看
作者: SimleLi    时间: 2020-7-6 09:51
jefferyzhang 发表于 2020-7-4 10:16
请都先升级到最新版本1.3.2 后再试下,NPU部门不会接受旧版本的bug提交的

RKNN 驱动,API 和 Toolkit 是这些需要升级吗?
[Latest Version] [1.3.2] rknn-toolkit & rknn-api for Toybrick 帖子里,给的 API 版本是1.3.0,请问 1.3.2 在哪可以找到?
作者: jefferyzhang    时间: 2020-7-6 10:43
SimleLi 发表于 2020-7-6 09:51
RKNN 驱动,API 和 Toolkit 是这些需要升级吗?
在 [Latest Version] [1.3.2] rknn-toolkit & rknn-api f ...

debian10系统直接apt update upgrade即可,参看置顶帖有升级说明。
作者: SimleLi    时间: 2020-7-6 11:08
zhangzj 发表于 2020-7-6 08:40
是否有开启预编译?有的话关掉预编译再跑看看

关闭预编译可行!不再出现" GPU[0] hang "。
作者: SimleLi    时间: 2020-7-6 11:23
jefferyzhang 发表于 2020-7-6 10:43
debian10系统直接apt update upgrade即可,参看置顶帖有升级说明。

我是用的是 TB-96AIOT 开发板,该如何使用 debian 10 系统呢?
作者: SimleLi    时间: 2020-7-6 17:38
jefferyzhang 发表于 2020-7-6 10:43
debian10系统直接apt update upgrade即可,参看置顶帖有升级说明。

请问 1.3.2 版本的驱动在哪下载?
目前 Github rknpu 给的driver galcore.ko 是1.3.1版本。




欢迎光临 Toybrick (https://t.rock-chips.com/) Powered by Discuz! X3.3