关于 pytorch 的 ZeroPad2d, 通过onnx 转rknn结果不一致

[复制链接] · 发表于 2020-4-24 11:05:30

本帖最后由 kkkaaa 于 2020-4-24 11:12 编辑

模型的卷积用到 nn.ZeroPad2d, 似乎有问题，就单独拎出来测试转换。
torch -> onnx -> rknn （无量化）: 可以转换成功，但是torch 和 rknn inference 结果不同，代码和结果都附在最后（虽然结果不一致，但是似乎有某种规律）
torch -> rknn(无量化)：失败，
E Catch exception when loading pytorch model: little_model_zeropad.pt!
E Traceback (most recent call last):
E File "rknn/api/rknn_base.py", line 611, in rknn.api.rknn_base.RKNNBase.load_pytorch
E File "rknn/base/RKNNlib/app/importer/import_pytorch.py", line 97, in rknn.base.RKNNlib.app.importer.import_pytorch.ImportPytorch.run
E File "rknn/base/RKNNlib/converter/convert_pytorch.py", line 573, in rknn.base.RKNNlib.converter.convert_pytorch.convert_pytorch.__init__
E File "rknn/base/RKNNlib/converter/convert_pytorch.py", line 657, in rknn.base.RKNNlib.converter.convert_pytorch.convert_pytorch.model_simplify
E File "rknn/base/RKNNlib/converter/convert_pytorch.py", line 113, in rknn.base.RKNNlib.converter.convert_pytorch.torch_inference_engine.shape_pick
E File "rknn/base/RKNNlib/converter/convert_pytorch.py", line 148, in rknn.base.RKNNlib.converter.convert_pytorch.torch_inference_engine.__ir_shape_inference
E KeyError: 'aten::constant_pad_nd'

torch -> onnx -> rknn 的代码和输出结果

class ZeroPadModel(nn.Module):

    def __init__(self):

        super(ZeroPadModel, self).__init__()

        self.static_padding = nn.ZeroPad2d((0,1,0,1))



    def forward(self, x):

        x = self.static_padding(x)

        return x





# === torch 模型初始化 ===

# net = Conv2dStaticSamePaddingModel(image_size)

net = ZeroPadModel()

print("==== network ====")

print(net)

net.eval()



# === 转化1: torch2onnx ===

print("--> torch model inference result")

input_tensor = torch.rand(1,3, image_size, image_size)

torch_out = torch.onnx._export(net, input_tensor, ONNX_MODEL, export_params=True)



# === 转化2: onnx2rknn ===

from rknn.api import RKNN

rknn = RKNN()



print('--> Loading model')

ret = rknn.load_onnx(model=ONNX_MODEL)

if ret != 0:

    print('Load resnet50v2 failed!')

    exit(ret)

print('done')



# Build model

print('--> Building model')

ret = rknn.build(do_quantization=False, dataset='./dataset.txt')

if ret != 0:

    print('Build resnet50 failed!')

    exit(ret)

print('done')



# Export rknn model

print('--> Export RKNN model')

ret = rknn.export_rknn(RKNN_MODEL)

if ret != 0:

    print('Export resnet50v2.rknn failed!')

    exit(ret)

print('done')



# === rknn inference ===

# init runtime environment

print("--> Init runtime environment")

ret = rknn.init_runtime()

if ret != 0:

    print("Init runtime environment failed")

    exit(ret)

print('done')



# inference

print("--> Running rknn model")

rknn_input = input_tensor.numpy().transpose(0,2,3,1)

rknn_outputs = rknn.inference(inputs=[rknn_input], data_format='nhwc')[0][0]



# === torch inference ===

torch_inference_result = net(input_tensor)[0].detach().cpu().numpy()



# === compare & show results ===

print("--> compare inference")

print("input shape: ", input_tensor.shape)

print("rknn input shape: ", rknn_input.shape)

print("torch_inference shape: ", torch_inference_result.shape)

print("rknn_outputs shape: ", rknn_outputs.shape)



print("max error: ", np.max(torch_inference_result - rknn_outputs))



print("~~~~~~ torch model infer output ~~~~~~")

print(torch_inference_result)

print("~~~~~~ rknn model infer output ~~~~~~")

print(rknn_outputs)
复制代码

输出：
~~~~~~ torch model infer output ~~~~~~
[[[0.05392462 0.12481469 0.       ]
  [0.44090217 0.44217068 0.       ]
  [0.       0.       0.       ]]

[[0.86402655 0.47992283 0.       ]
  [0.72332394 0.12081265 0.       ]
  [0.       0.       0.       ]]

[[0.92382944 0.56915957 0.       ]
  [0.28351116 0.7321489  0.       ]
  [0.       0.       0.       ]]]
~~~~~~ rknn model infer output ~~~~~~
[[[0.9238281  0.56884766 0.56884766]
  [0.28344727 0.7319336  0.7319336 ]
  [0.28344727 0.7319336  0.7319336 ]]

[[0.86376953 0.47973633 0.47973633]
  [0.72314453 0.12078857 0.12078857]
  [0.72314453 0.12078857 0.12078857]]

[[0.05392456 0.12475586 0.12475586]
  [0.44067383 0.44213867 0.44213867]
  [0.44067383 0.44213867 0.44213867]]]

补充：onnx model 和 torch model 输出结果一致

只看该作者 · 发表于 2020-4-24 15:31:59

本帖最后由 kkkaaa 于 2020-4-24 15:35 编辑

求助。。。>.<
希望能支持这个 op 的转化。。模型就差这一个 op 了

只看该作者 · 发表于 2020-4-24 15:58:12

我先帮你把问题报给NPU部门。。

只看该作者 · 发表于 2020-4-27 15:17:37

jefferyzhang 发表于 2020-4-24 15:58
我先帮你把问题报给NPU部门。。

有没有可能在近期支持？？

只看该作者 · 发表于 2020-4-27 16:27:40

这个我不知道，我只有权利给他们提问题，他们解决了发布后才会通知我。。。

只看该作者 · 发表于 2020-4-27 18:00:48

jefferyzhang 发表于 2020-4-27 16:27
这个我不知道，我只有权利给他们提问题，他们解决了发布后才会通知我。。。 ...

版主，我发现 ZeroPad2d 这个op 从 torch -> onnx -> rknn 为啥结果会不一致了

op = nn.ZeroPad2d((0,1,0,1))

输入 tensor 是

tensor([[[[ 0.,  1.],

          [ 2.,  3.]],



         [[ 4.,  5.],

          [ 6.,  7.]],



         [[ 8.,  9.],

          [10., 11.]]]])
复制代码

torch/onnx 的 pad 结果是

[[[ 0.  1.  0.]

  [ 2.  3.  0.]

  [ 0.  0.  0.]]



 [[ 4.  5.  0.]

  [ 6.  7.  0.]

  [ 0.  0.  0.]]



 [[ 8.  9.  0.]

  [10. 11.  0.]

  [ 0.  0.  0.]]]
复制代码

rknn pad 结果是

[[[ 0.  1.  1.]

  [ 2.  3.  3.]

  [ 2.  3.  3.]]



 [[ 4.  5.  5.]

  [ 6.  7.  7.]

  [ 6.  7.  7.]]



 [[ 8.  9.  9.]

  [10. 11. 11.]

  [10. 11. 11.]]]
复制代码

不知道这算不算 onnx->rknn 的 bug?? 或者是我哪里又犯错了。谢谢

只看该作者 · 发表于 2020-4-27 18:23:27

kkkaaa 发表于 2020-4-27 18:00
版主，我发现 ZeroPad2d 这个op 从 torch -> onnx -> rknn 为啥结果会不一致了

op = nn.ZeroPad2d((0,1, ...

如果和原模型不和肯定是我们bug。。。
目前pytorch刚开始支持，问题还是会有的。。

只看该作者 · 发表于 2020-4-27 18:27:15

jefferyzhang 发表于 2020-4-27 18:23
如果和原模型不和肯定是我们bug。。。
目前pytorch刚开始支持，问题还是会有的。。 ...

那就拜托你们啦

我还发现一个 rknn_input = input_tensor.numpy().transpose(0,2,3,1）的 channel 维的问题，在另一个帖子里提到了

只看该作者 · 发表于 2020-5-25 11:46:44

NPU Team 答复：
1.3.2已经修复，请尝试下1.3.2是否正常
250242

只看该作者 · 发表于 2020-6-10 14:10:09

jefferyzhang 发表于 2020-5-25 11:46
NPU Team 答复：
1.3.2已经修复，请尝试下1.3.2是否正常
250242

我在1.3.2依然遇到这个问题：
KeyError: 'aten::constant_pad_nd'