Toybrick

标题: toolkit1.3.0+UbuntuPC模拟器+Pytorch DenseNet出错 [打印本页]

作者: 阿杰哥1992    时间: 2020-3-17 14:51
标题: toolkit1.3.0+UbuntuPC模拟器+Pytorch DenseNet出错
环境:toolkit1.3.0+UbuntuPC模拟器+Pytorch转换。
问题描述:在examples/pytorch/test.py中,我们将resnet18替换成densenet201,发现不能运行成功。rknn.init_runtime()运行过程中显示Restarting kernel...

作者: jefferyzhang    时间: 2020-3-17 15:04
pytorch版本?
log?
作者: 阿杰哥1992    时间: 2020-3-17 15:10
jefferyzhang 发表于 2020-3-17 15:04
pytorch版本?
log?

python3.5,pytorch 1.2.0+cpu。
rknn.init_runtime出问题的log如下:
I [setup_nodes:4017]name=convolution_at_9310_36
I [setup_nodes:4017]name=cat_at_input579.1_331
I [setup_nodes:4017]name=batch_norm_at_input580.1_250
I [setup_nodes:4017]name=relu__at_input581.1_169
I [setup_nodes:4017]name=convolution_at_input582.1_136
I [setup_nodes:4017]name=relu__at_input584.1_70
I [setup_nodes:4017]name=convolution_at_9388_37
I [setup_nodes:4017]name=cat_at_input585.1_332
I [setup_nodes:4017]name=batch_norm_at_input586.1_251
I [setup_nodes:4017]name=relu__at_input587.1_170
I [setup_nodes:4017]name=convolution_at_input588.1_137
I [setup_nodes:4017]name=relu__at_input590.1_71
I [setup_nodes:4017]name=convolution_at_9467_38
I [setup_nodes:4017]name=cat_at_input591.1_333
I [setup_nodes:4017]name=batch_norm_at_input592.1_252
I [setup_nodes:4017]name=relu__at_input593.1_171
I [setup_nodes:4017]name=convolution_at_input594.1_138
I [setup_nodes:4017]name=relu__at_input596.1_72
I [setup_nodes:4017]name=convolution_at_9547_39
I [setup_nodes:4017]name=cat_at_input597.1_334
I [setup_nodes:4017]name=batch_norm_at_input598.1_253
I [setup_nodes:4017]name=relu__at_input599.1_172
I [setup_nodes:4017]name=convolution_at_input600.1_139
I [setup_nodes:4017]name=relu__at_input602.1_73
I [setup_nodes:4017]name=convolution_at_new_features2.1_40
I [setup_nodes:4017]name=cat_at_input603.1_7
I [setup_nodes:4017]name=batch_norm_at_input604.1_6
I [setup_nodes:4017]name=relu__at_input605.1_5
I [setup_nodes:4017]name=adaptive_avg_pool2d_at_out.1_4
I [setup_nodes:4017]name=permute_3
I [setup_nodes:4017]name=trans_flatten_at_input606.1_2
I [setup_nodes:4017]name=addmm_at_9685_1
I [vnn_CreateRKNN:5249]Norm tensor initialize
I [vnn_CreateRKNN:5264]Const tensor initialize
I [vnn_CreateRKNN:5279]Virtual tensor initialize

Restarting kernel...
之前的步骤ret返回0,以上log还没保存至verbose_file,就把python kernel整挂了
作者: 阿杰哥1992    时间: 2020-3-17 15:17
jefferyzhang 发表于 2020-3-17 15:04
pytorch版本?
log?

另,我们采用的torchvision中的原生densenet201模型,
import torchvision.models as models
net = models.densenet201(pretrained=True)
谢谢
作者: jefferyzhang    时间: 2020-3-17 15:20
问题已提交
作者: 阿杰哥1992    时间: 2020-3-17 15:53
jefferyzhang 发表于 2020-3-17 15:20
问题已提交

期待你们的反馈!!!
作者: jefferyzhang    时间: 2020-3-18 20:29
请将模型或下载地址、转换脚本发给我
作者: jefferyzhang    时间: 2020-3-20 16:38
NPU部门答复:
densenet201的模型规模比较大,我这边转换都要花20多分钟,netron也打不开,通过分析,发现这个模型的concat的input数量(47个)已经超过了vip8000的硬件限制(16个),因此该模型在vip8000上暂时无法支持。
作者: 18022443868    时间: 2020-5-9 15:35
jefferyzhang 发表于 2020-3-20 16:38
NPU部门答复:
densenet201的模型规模比较大,我这边转换都要花20多分钟,netron也打不开,通过分析,发现 ...

Vip8000是什么?RK3399pRO上面的硬件吗?我的模型中有41个concat,那也同样不支持,这样理解没错吧?这个硬件支撑大概需要怎么调整,让他足够支持?
作者: jefferyzhang    时间: 2020-5-9 15:56
18022443868 发表于 2020-5-9 15:35
Vip8000是什么?RK3399pRO上面的硬件吗?我的模型中有41个concat,那也同样不支持,这样理解没错吧?这个 ...

NPU的硬件。
简单这么说,这个网络我们硬件限制,支持不了。
作者: 18022443868    时间: 2020-5-9 16:59
jefferyzhang 发表于 2020-5-9 15:56
NPU的硬件。
简单这么说,这个网络我们硬件限制,支持不了。

那如果说放在RK1808计算棒呢?是否能够支持?我在PC端插上计算棒也是同样的错误,估计也支持不了
作者: jefferyzhang    时间: 2020-5-9 21:13
18022443868 发表于 2020-5-9 16:59
那如果说放在RK1808计算棒呢?是否能够支持?我在PC端插上计算棒也是同样的错误,估计也支持不了 ...

你的网络我们NPU支持不了,你说的所有rknn目前都是这款NPU,无法支持
作者: 18022443868    时间: 2020-5-11 09:58
jefferyzhang 发表于 2020-5-9 21:13
你的网络我们NPU支持不了,你说的所有rknn目前都是这款NPU,无法支持

那我将concat 输入数量降低到16以下,RKNN是否就可以支持我的网络了?
作者: jefferyzhang    时间: 2020-5-11 10:02
18022443868 发表于 2020-5-11 09:58
那我将concat 输入数量降低到16以下,RKNN是否就可以支持我的网络了?

动手试试
作者: 18022443868    时间: 7 天前
jefferyzhang 发表于 2020-5-11 10:02
动手试试

可以,但是我加入out = F.interpolate(input,size=(skip.size(2), skip.size(3)),mode="bilinear",align_corners=True,)这个操作后,网络在RK3399ProD上面初始化又失败了,不加就可以运行
作者: jefferyzhang    时间: 7 天前
18022443868 发表于 2020-5-19 11:38
可以,但是我加入out = F.interpolate(input,size=(skip.size(2), skip.size(3)),mode="bilinear",align_ ...

加载失败一般都是模型转的有问题,看下转换过程有没有报错,再用UI工具看下转换完的rknn模型是不是正确
作者: 18022443868    时间: 7 天前
jefferyzhang 发表于 2020-5-19 11:44
加载失败一般都是模型转的有问题,看下转换过程有没有报错,再用UI工具看下转换完的rknn模型是不是正确 ...

转换过程未出错。应该是F.interpolate操作有点特殊,需要对应怎么去处理之类的?
作者: jefferyzhang    时间: 7 天前
18022443868 发表于 2020-5-19 11:58
转换过程未出错。应该是F.interpolate操作有点特殊,需要对应怎么去处理之类的? ...

pytorch我只能给NPU team报bug。。。
pytorch现在自定义op是否支持我也没关注,如果是tf或者caffe,一般做法就是自定义op自己写.
你这里的 F.interpolate 是对应nn. 里的哪个函数?
作者: 18022443868    时间: 7 天前
jefferyzhang 发表于 2020-5-19 12:00
pytorch我只能给NPU team报bug。。。
pytorch现在自定义op是否支持我也没关注,如果是tf或者caffe,一般 ...

torch.nn.functional.interpolate
作者: jefferyzhang    时间: 7 天前
18022443868 发表于 2020-5-19 14:09
torch.nn.functional.interpolate

已经报给NPU部门了
作者: 18022443868    时间: 7 天前
jefferyzhang 发表于 2020-5-19 12:00
pytorch我只能给NPU team报bug。。。
pytorch现在自定义op是否支持我也没关注,如果是tf或者caffe,一般 ...

试过pytorch中的几个上采样函数:torch.nn.functional.interpolate       torch.nn.functional.upsample    torch.nn.functional.upsample_bilinear 三种上采样操作,都不行,是不是目前RKNN还未支持pytorch的上采样操作?

作者: jefferyzhang    时间: 7 天前
18022443868 发表于 2020-5-19 14:49
试过pytorch中的几个上采样函数:torch.nn.functional.interpolate       torch.nn.functional.upsample   ...

你是toolkit 1.3.2 么?1.3.2加了大量pytorch op支持了啊
作者: 18022443868    时间: 7 天前
jefferyzhang 发表于 2020-5-19 15:02
你是toolkit 1.3.2 么?1.3.2加了大量pytorch op支持了啊

是的,API:1.3.2,DRV1.3.0。
我的pt文件上传一下,发麻烦帮忙看下到底是什么地方存在问题?
作者: jefferyzhang    时间: 7 天前
问题已经上报
作者: 18022443868    时间: 7 天前
jefferyzhang 发表于 2020-5-19 15:02
你是toolkit 1.3.2 么?1.3.2加了大量pytorch op支持了啊

后面给的是未超过16个concat的模型,我这个模型初始化老是失败。麻烦帮忙看下,万分感谢

作者: 18022443868    时间: 7 天前
jefferyzhang 发表于 2020-5-19 17:30
问题已经上报

好的,收到,等贵司回复
作者: 18022443868    时间: 5 天前
jefferyzhang 发表于 2020-5-19 17:30
问题已经上报

目前用的模型是FcHarDNet
作者: jefferyzhang    时间: 昨天 20:07
NPU Team答复: 253180

尝试将out = F.interpolate(input,size=(skip.size(2), skip.size(3)),mode="bilinear",align_corners=True,)
改成out = F.interpolate(input,size=(int(skip.size(2)), int(skip.size(3))),mode="bilinear",align_corners=True,)
上采样的size必须是固定的不能是变化的




欢迎光临 Toybrick (http://t.rock-chips.com/) Powered by Discuz! X3.3