pytorch->onnx-rknn 输入channel是否等于3决定推理结果是否正确

[复制链接] · 发表于 2020-4-30 11:26:31

本帖最后由 kkkaaa 于 2020-4-30 14:43 编辑

不知道是不是一个 bug
rknn 版本：1.3.1b1
输入给 rknn 的 tensor 已经做了 transpose, 满足 data_format = 'nhwc'
输出没有做任何处理，保持模型返回的结果

我测试的 toy model 定义如下

class ToyModel(nn.Module):

    def __init__(self, ):

        super(ToyModel, self).__init__()

        self.op = nn.ReLU()



    def forward(self, x):

        x = self.op(x)

        return x
复制代码

op 替换成其他简单 op 效果一样，为了明显看出规律，使用了 relu.

当输入 tensor 的形状为 (1,3, H, W) 时，结果的 channel 维颠倒了
当输入 tensor 的形状为 (1,C, H, W) and C!=3 时, 结果是正确的

以下是一个完整的可打印出 torcu, onnx, rknn 模型输入和推理结果的脚本



""" torch -> onnx -> rknn """



import torch

import numpy as np

from torch import nn





model_name = "little_model_func_conv"

ONNX_MODEL = model_name + '.onnx'

RKNN_MODEL = model_name + '_from_onnx' + '.rknn'



image_size_h = 2

image_size_w =1

num_channel =3 



# === torch 模型初始化 ===





class ToyModel(nn.Module):

    def __init__(self, ):

        super(ToyModel, self).__init__()

        self.op = nn.ReLU()



    def forward(self, x):

        x = self.op(x)

        return x



net = ToyModel()



print("==== network ====")

print(net)

net.eval()



# === 转化1: torch2onnx ===

print("--> torch model inference result")



input_tensor = torch.Tensor(np.arange(num_channel * image_size_h * image_size_w).reshape(1, num_channel, image_size_h, image_size_w))

torch_out = torch.onnx._export(net, input_tensor, ONNX_MODEL, export_params=True)



# === 转化2: onnx2rknn & rknn inference ===

from rknn.api import RKNN

rknn = RKNN()



print('--> Loading model')

ret = rknn.load_onnx(model=ONNX_MODEL)

if ret != 0:

    print('Load resnet50v2 failed!')

    exit(ret)

print('done')



# Build model

print('--> Building model')

ret = rknn.build(do_quantization=False, dataset='./dataset.txt')

if ret != 0:

    print('Build resnet50 failed!')

    exit(ret)

print('done')



# Export rknn model

print('--> Export RKNN model')

ret = rknn.export_rknn(RKNN_MODEL)

if ret != 0:

    print('Export resnet50v2.rknn failed!')

    exit(ret)

print('done')



# === rknn inference ===

# init runtime environment

print("--> Init runtime environment")

ret = rknn.init_runtime()

if ret != 0:

    print("Init runtime environment failed")

    exit(ret)

print('done')



# inference

print("--> Running rknn model")

rknn_input = input_tensor.numpy()[0].transpose(1,2,0)

print('----> rknn input')

print(rknn_input)

rknn_outputs = rknn.inference(inputs=[rknn_input])[0][0]  #[::-1]



# === torch inference ===

print('----> torch input')

print(input_tensor)

torch_inference_result = net(input_tensor)[0].detach().cpu().numpy()



# === onnx inference ===

import onnxruntime

def to_numpy(tensor):

    return tensor.detach().cpu().numpy() if tensor.requires_grad else tensor.cpu().numpy()



ort_session = onnxruntime.InferenceSession(ONNX_MODEL)

ort_inputs = {ort_session.get_inputs()[0].name: to_numpy(input_tensor)}

ort_outs = ort_session.run([x.name for x in ort_session.get_outputs()], ort_inputs)





# === compare & show results ===

print("~~~~~~ torch model infer output ~~~~~~")

print(torch_inference_result)

print("~~~~~~ onnx model infer output ~~~~~~")

print(ort_outs)

print("~~~~~~ rknn model infer output ~~~~~~")

print(rknn_outputs)

复制代码

这个问题困扰我好久了，请看看是不是有 bug, 谢谢

只看该作者 · 发表于 2020-5-1 22:24:09

1. 试下1.3.2正式版本，
2. 文档有介绍，nchw都是要显式申明设置给rknn的，不写的话结果可能不符合预期。具体看下文档，我自己没玩过pytorch。

只看该作者 · 发表于 2020-5-6 16:40:54

jefferyzhang 发表于 2020-5-1 22:24
1. 试下1.3.2正式版本，
2. 文档有介绍，nchw都是要显式申明设置给rknn的，不写的话结果可能不符合预期。具 ...

我试了 1.3.2, 而且显式指定 data_format = 'nhwc', 结果还是一样。
我觉得这本质上是一个从 onnx 到 rknn 转换的问题。

我把我观察到的现象描述的再具体一点。
当torch/onnx的输入是
tensor([[[[0.],
      [1.]],

      [[2.],
      [3.]]]])
即 rknn 的输入是
[[[0. 2.]]

[[1. 3.]]]时

rknn 输出是
[[[0.]
  [1.]]

[[2.]
  [3.]]]
----------
当 pytorch/onnx 输入是
tensor([[[[0.],
      [1.]],

      [[2.],
      [3.]],

      [[4.],
      [5.]]]])
即 rknn 输入是
[[[0. 2. 4.]]

[[1. 3. 5.]]] 时，
rknn 输出是
[[[4.]
  [5.]]

[[2.]
  [3.]]

[[0.]
  [1.]]]

只看该作者 · 发表于 2020-5-8 14:23:15

这个问题挺困扰我的，虽然找到可以保持输出一致的方法，但是总觉得很奇怪

也不知道是不是我哪里做错了，不过我真的已经检查过很多次了

只看该作者 · 发表于 2020-5-12 17:56:23

kkkaaa 发表于 2020-5-8 14:23
这个问题挺困扰我的，虽然找到可以保持输出一致的方法，但是总觉得很奇怪

也不知道是不是我哪里做错了，不 ...

显示指定NHWC或者NCHW，输入的数据也要是这个格式。如果不是的话，可以可以用np.transpose接口去转换。

只看该作者 · 发表于 2020-5-14 21:53:37

找到原因了，和帖子 http://t.rock-chips.com/forum.php?mod=viewthread&tid=1542&extra= 是同一个问题