Toybrick

标题: 在开发板做模型转换耗时太久 [打印本页]

作者: 771488533    时间: 2019-3-13 10:11
标题: 在开发板做模型转换耗时太久
在开发板上做模型转换耗时非常久,是否重新优化一下?否则没办法做动态的模型转换

作者: 程子    时间: 2019-3-13 10:32
模型转换本来就不该在板子上做。
作者: 771488533    时间: 2019-3-13 10:49
程子 发表于 2019-3-13 10:32
模型转换本来就不该在板子上做。

某些模型需要动态转换模型输入大小,比如mtcnn 的 p-net ,懂?
作者: elooon    时间: 2019-3-13 10:50
Yes.Model transform has better to be done on pc.
作者: 771488533    时间: 2019-3-13 10:56
elooon 发表于 2019-3-13 10:50
Yes.Model transform has better to be done on pc.

I know,But some model need to transform the input size when it run according to the input camera image size. Like mtcnn model P-net
作者: nevin007    时间: 2019-3-13 13:57
771488533 发表于 2019-3-13 10:56
I know,But some model need to transform the input size when it run according to the input camera  ...

如果摄像头的输入尺寸不是经常变化的话,最好还是离线先统一转好再跑吧,要不然太耗资源了...感觉NPU上跑这种小的全卷积网络是个bug...还不如在CPU上跑...
作者: 771488533    时间: 2019-3-13 14:17
nevin007 发表于 2019-3-13 13:57
如果摄像头的输入尺寸不是经常变化的话,最好还是离线先统一转好再跑吧,要不然太耗资源了...感觉NPU上跑 ...

前端应用,输入图像大小很难固定下来。不知道你那边移植的怎么样了,我这边mtcnn移植的差不多了,输入图像尺寸640*480的条件下,用npu跑起来速度还不如放CPU使用ncnn跑,达不到实时,这NPU性能感觉有点渣
作者: 771488533    时间: 2019-3-13 14:29
771488533 发表于 2019-3-13 14:17
前端应用,输入图像大小很难固定下来。不知道你那边移植的怎么样了,我这边mtcnn移植的差不多了,输入图 ...

使用NPU自带的时间测试标志位RKNN_FLAG_COLLECT_PERF_MASK返回的耗时是挺短的,可是实际rknn_run 和rknn_outputs_get接口耗时基本上是自带测试时间的两三倍,不知道是c++接口的问题还是这NPU单次推理本来就耗时比较久,目前的测试结果完全达不到官方宣传的3个T的运算速度,跑个mtcnn这种小卷积网络都没办法实时。。。
作者: nevin007    时间: 2019-3-13 14:29
771488533 发表于 2019-3-13 14:17
前端应用,输入图像大小很难固定下来。不知道你那边移植的怎么样了,我这边mtcnn移植的差不多了,输入图 ...

差不多,我移植好了,PNet用固定尺寸模型跑的,没做量化,测试下来mtcnn跑一遍100ms左右,CPU上只要60ms...
作者: 771488533    时间: 2019-3-13 14:38
nevin007 发表于 2019-3-13 14:29
差不多,我移植好了,PNet用固定尺寸模型跑的,没做量化,测试下来mtcnn跑一遍100ms左右,CPU上只要60ms. ...

hhh,我也是没有做量化跑的,我是使用0.9.8.1版本的rknn,后续推理时间如果没有优化的话,跑个mtcnn完全没办法实时,要这NPU有何用?
作者: nevin007    时间: 2019-3-13 14:49
本帖最后由 nevin007 于 2019-3-13 14:51 编辑
771488533 发表于 2019-3-13 14:38
hhh,我也是没有做量化跑的,我是使用0.9.8.1版本的rknn,后续推理时间如果没有优化的话,跑个mtcnn完全 ...

我用的是0.9.8,我去试下0.9.8.1...
作者: hjf515    时间: 2019-3-14 09:50
@nevin007兄
我也准备移植mtcnn,能否将您的程序发给我参考一下。多谢
我邮箱是 hjf631@sina.com
作者: 程子    时间: 2019-3-14 10:12
771488533 发表于 2019-3-13 14:38
hhh,我也是没有做量化跑的,我是使用0.9.8.1版本的rknn,后续推理时间如果没有优化的话,跑个mtcnn完全 ...

不量化,性能只有0.1TOPS。
作者: 771488533    时间: 2019-3-14 10:36
程子 发表于 2019-3-14 10:12
不量化,性能只有0.1TOPS。

兄台哪里得来的数据?
作者: 771488533    时间: 2019-3-14 10:38
程子 发表于 2019-3-14 10:12
不量化,性能只有0.1TOPS。

要是你自己猜测的就不要发出来误导别人了
作者: zhangzj    时间: 2019-3-22 16:10
771488533 发表于 2019-3-14 10:38
要是你自己猜测的就不要发出来误导别人了

最好做下量化,才能充分利用npu里面的int8单元
作者: 程子    时间: 2019-3-22 17:45
[attach]182[/attach]





欢迎光临 Toybrick (https://t.rock-chips.com/) Powered by Discuz! X3.3