pytorch -> rknn 转换 nn.ReLU op 有问题，似乎是 bug

[复制链接] · 发表于 2020-5-15 15:57:56

版本：rknn-toolkit 1.3.2
在转换一个目标检测模型时遇到问题(问题详见帖子：http://t.rock-chips.com/forum.ph ... tid=1625&extra=)。
通过删减层、尝试不同输出，定位到问题首先出现在 nn.ReLU. 为了让问题更清晰，写了一个小模型如下：

class Net(torch.nn.Module):



    def __init__(self):

        super(Net, self).__init__()



        self.conv1 = torch.nn.Conv2d(3,24,3)

        self.nonlinear = torch.nn.ReLU()  # successful op: Sigmoid, LeakyReLU



    def forward(self, x):

        x1 = self.conv1(x)

        y = self.nonlinear(x1)

        return x1, y
复制代码

问题描述：
比较 pytorch 和 rknn 模型的输出
- 对于 y：绝对距离和 cos 距离都很小，认为几乎一致
- 对于 x1： rknn 输出张量的所有分量严格等于0.0， cos 距离为 nan

另外，Net 中的self.nonlinear 还尝试了 Sigmoid, LeakyReLU， y 和 x1 的 rknn 输出都正常，与 torch 输出几乎一致
附上一个可以完整运行的代码：

# -*- coding: utf-8 -*-

# create time: 2020-05-15 15:29



import torch

from rknn.api import RKNN

import numpy as np





class Net(torch.nn.Module):



    def __init__(self):

        super(Net, self).__init__()



        self.conv1 = torch.nn.Conv2d(3,24,3)

        self.nonlinear = torch.nn.ReLU()  # successful op: Sigmoid, LeakyReLU



    def forward(self, x):

        x1 = self.conv1(x)

        y = self.nonlinear(x1)

        return x1, y





def E_D(vector1, vector2):

    print("vector1 norm: ", np.linalg.norm(vector1))

    print("vector2 norm: ", np.linalg.norm(vector2))

    print("distance: ", np.linalg.norm(vector1 - vector2))



def cos_d(vector1, vector2):

    d = 1 - np.dot(vector1, vector2) / (np.linalg.norm(vector1) * (np.linalg.norm(vector2)))

    print(d)





if __name__ == '__main__':



    net = Net()

    i1 = torch.rand(1,3,5,5)

    # i2 = torch.rand(1,2,7,7)

    # i3 = torch.rand(1,3,9,9)

    trace_model = torch.jit.trace(net, (i1))

    trace_model.save('test.pt')





    rknn = RKNN(verbose=True)

    rknn.config(batch_size=1,

                channel_mean_value='0 0 0 1',

                reorder_channel='0 1 2',

                epochs=1)



    ret = rknn.load_pytorch(model='test.pt', input_size_list=[[3,5,5]])

    # ret = rknn.load_onnx(model='lstm{128x64}.pt.onnx')

    if ret != 0:

        print('Load pytorch model failed!')

        exit(ret)



    ret = rknn.build(do_quantization=False, dataset='./dataset.txt')

    if ret != 0:

        print('Build pytorch failed!')

        exit(ret)



    ret = rknn.init_runtime()

    if ret != 0:

        print('Init runtime environment failed')

        exit(ret)





    rknn_r = rknn.inference(inputs=[i1.numpy()],

                            data_type='float32',

                            data_format='nchw')

    pytorch_r = net(i1)





    for d1, d2 in zip(rknn_r, pytorch_r):

        d1 = d1.ravel()

        d2 = d2.detach().numpy().ravel()



        E_D(d1, d2)

        cos_d(d1, d2)



        print("---")



复制代码

希望能够得到解答～谢谢

只看该作者 · 发表于 2020-5-17 21:27:53

本帖最后由 kkkaaa 于 2020-5-17 21:40 编辑

真心求助。。。花了两天时间定位 bug
主楼的这个模型看似无厘头，其实是我把问题 isolate 出来了，发现本质上是这里出错
如果是我犯的愚蠢错误也希望能被指正出来

只看该作者 · 发表于 2020-5-18 17:10:51

我已经报告给NPU部门了，等他们回复

只看该作者 · 发表于 2020-5-21 17:58:29

jefferyzhang 发表于 2020-5-18 17:10
我已经报告给NPU部门了，等他们回复

没有反馈吗？

只看该作者 · 发表于 2020-5-21 18:13:57

kkkaaa 发表于 2020-5-21 17:58
没有反馈吗？

没这么快吧，你要急的话要通过公司FAE反馈。

只看该作者 · 发表于 2020-5-22 10:03:57

jefferyzhang 发表于 2020-5-21 18:13
没这么快吧，你要急的话要通过公司FAE反馈。

好的谢谢。我以为是个小 bug

只看该作者 · 发表于 2020-5-22 10:19:35

kkkaaa 发表于 2020-5-22 10:03
好的谢谢。我以为是个小 bug

再小的bug都要等他们下一个版本出来才能测试。他们不会为任何一个个人出单独版本，NPU的工程编译一次就是一整天，不可能你们谁提个bug，他立马解决了就给你出版本。。。

只看该作者 · 发表于 2020-5-22 10:45:35

jefferyzhang 发表于 2020-5-22 10:19
再小的bug都要等他们下一个版本出来才能测试。他们不会为任何一个个人出单独版本，NPU的工程编译一次就是 ...

其实我是希望能确定一下, 在现有的最新的 NPU 版本下，我反应的问题是否的确是一个 bug, (or I messed up something)，我希望能有一个反馈。

我们现在暂时暂缓嵌入式设备的开发工作了，为了规避风险，目前暂时转向 x86 。
但是嵌入式设备仍然在我们的计划中，我们需要评估从不同框架移植模型的难度和风险。

我做了一个月，目前意识到的 rknn 的问题或者说是 bug 有以下几个
1. onnx -> rknn 多输入顺序被打乱(bug)
2. 本楼提到的(bug)
3. pytorch-> rknn , onnx-> rknn 不支持 slice 操作 (not support)
4. pytorch -> rknn 还有一些无法描述的奇妙 bug(无法描述)
5. rknn.config 当通道为3时 reorder 默认 '2 1 0' (违反直觉)

以上结论都是我在反复的实验过程中总结出来的，其实我不是很专业，对自己的结论并不是很有信心，所以我发了很多帖子，也得到了很多及时的回复。

我希望 rknn 能做的更好，但是我也希望能得到更多反馈。

只看该作者 · 发表于 2020-5-22 11:01:26

没有办法，这里只是社区，我们也只是跟你们一样的工程师而已。
要么等，要么联系FAE。

只看该作者 · 发表于 2020-5-22 11:07:52

jefferyzhang 发表于 2020-5-22 11:01
没有办法，这里只是社区，我们也只是跟你们一样的工程师而已。
要么等，要么联系FAE。 ...

I see... 你们的 NPU 部门连这是不是一个 bug 都不会立马反馈给你们是吧。。。
看来用 rknn 还是最好限制在 yolo系列这种大家都在用的模型了，如果是更加客制化的模型。。。看起来是给自己挖坑