3399pro来做语音识别，pb模型转rknn后效果非常不好

只看该作者 · 发表于 2019-5-17 11:58:46

你按我的建议先做一下吧，目的是保证你的输入长和宽数据送入卷积。
这个方式我之前验证过可行的。

只看该作者 · 发表于 2019-5-17 15:26:00

感觉应该是rknn不支持长宽不同的输入，不过我后来看到官方例程车牌识别要识别的图片是32x40的单通道图片，他是先转化为一维向量输入模型，然后在模型里面reshape识别，我也打算先试试这种方法

只看该作者 · 发表于 2019-5-17 15:26:39

感觉应该是rknn不支持长宽不同的输入，不过我后来看到官方例程车牌识别要识别的图片是32x40的单通道图片，他是先转化为一维向量输入模型，然后在模型里面reshape识别，我也打算先试试这种方法

只看该作者 · 发表于 2019-5-17 15:28:17

bobby_jiang 发表于 2019-5-17 11:58
你按我的建议先做一下吧，目的是保证你的输入长和宽数据送入卷积。
这个方式我之前验证过可行的。 ...

好的我是测试一下

只看该作者 · 发表于 2019-5-18 23:04:32

我将模型的变成320000，再模型内部做reshape到(1600,200,1)，这样转换之后pb模型可以正常使用，但rknn模型inference时候就报错：
E Catch exception when init model!
T Traceback (most recent call last):
T File "rknn/api/rknn_base.py", line 625, in rknn.api.rknn_base.RKNNBase.inference
T File "rknn/api/rknn_runtime.py", line 275, in rknn.api.rknn_runtime.RKNNRuntime.build_graph
T Exception: RKNN init failed. error code: RKNN_ERR_MODEL_INVALID

模型输入reshape代码
input_data = Input(name='the_input', shape=(self.INPUT_SIZE, 1), dtype='float32')
input_wavImage = Reshape((self.AUDIO_LENGTH, self.AUDIO_FEATURE_LENGTH, 1), name='Reshape')(input_data)
rknn模型转换代码
rknn.config()
# Load TensorFlow Model
print('--> Loading model')
rknn.load_tensorflow(tf_pb='./model.pb',
                     inputs=['the_input'],
                     outputs=['Activation0/truediv'],
                     input_size_list=[[320000, 1]])

只看该作者 · 发表于 2019-5-21 06:05:22

Hhhhlnlnlnh 发表于 2019-5-18 23:04
我将模型的变成320000，再模型内部做reshape到(1600,200,1)，这样转换之后pb模型可以正常使用，但rknn模型i ...

对，因为它转换的时候和inference的时候长宽两个维度的顺序反了，所以可以正产转换，但是没办法读取来做inference

只看该作者 · 发表于 2019-5-21 10:30:57

你现在用的rknn-toolkit是什么版本？
另外，你把原始模型和rknn模型，还有代码都贴上来。

只看该作者 · 发表于 2019-5-21 13:48:34

本帖最后由 Hhhhlnlnlnh 于 2019-5-21 13:49 编辑

bobby_jiang 发表于 2019-5-21 10:30
你现在用的rknn-toolkit是什么版本？
另外，你把原始模型和rknn模型，还有代码都贴上来。 ...

rknn-toolkit版本是0.9.9
原始pb模型和rknn模型放在百度云盘里
链接：https://pan.baidu.com/s/1doU0uLZXVBMv9EZ6C_r4rA
提取码：rlsq

keras模型代码

input_data = Input(name='the_input', shape=(320000, 1), dtype='float32')



input_wavImage = Reshape((1600, 200, 1), name='Reshape')(input_data)



layer_h1 = Conv2D(32, (3,3), use_bias=False, activation='relu', padding='same', kernel_initializer='he_normal')(input_wavImage) # 卷积层

layer_h1 = Dropout(0.05)(layer_h1)

layer_h2 = Conv2D(32, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h1) # 卷积层

layer_h3 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h2) # 池化层

#layer_h3 = Dropout(0.2)(layer_h2) # 随机中断部分神经网络连接，防止过拟合

layer_h3 = Dropout(0.05)(layer_h3)

layer_h4 = Conv2D(64, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h3) # 卷积层

layer_h4 = Dropout(0.1)(layer_h4)

layer_h5 = Conv2D(64, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h4) # 卷积层

layer_h6 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h5) # 池化层



layer_h6 = Dropout(0.1)(layer_h6)

layer_h7 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h6) # 卷积层

layer_h7 = Dropout(0.15)(layer_h7)

layer_h8 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h7) # 卷积层

layer_h9 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h8) # 池化层



layer_h9 = Dropout(0.15)(layer_h9)

layer_h10 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h9) # 卷积层

layer_h10 = Dropout(0.2)(layer_h10)

layer_h11 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h10) # 卷积层

layer_h12 = MaxPooling2D(pool_size=1, strides=None, padding="valid")(layer_h11) # 池化层



layer_h12 = Dropout(0.2)(layer_h12)

layer_h13 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h12) # 卷积层

layer_h13 = Dropout(0.2)(layer_h13)

layer_h14 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h13) # 卷积层

layer_h15 = MaxPooling2D(pool_size=1, strides=None, padding="valid")(layer_h14) # 池化层



#test=Model(inputs = input_data, outputs = layer_h12)

#test.summary()



layer_h16 = Reshape((200, 3200))(layer_h15) #Reshape层

#layer_h5 = LSTM(256, activation='relu', use_bias=True, return_sequences=True)(layer_h4) # LSTM层

#layer_h6 = Dropout(0.2)(layer_h5) # 随机中断部分神经网络连接，防止过拟合

layer_h16 = Dropout(0.3)(layer_h16)

layer_h17 = Dense(128, activation="relu", use_bias=True, kernel_initializer='he_normal')(layer_h16) # 全连接层

layer_h17 = Dropout(0.3)(layer_h17)

layer_h18 = Dense(1422, use_bias=True, kernel_initializer='he_normal')(layer_h17) # 全连接层
复制代码

rknn模型转换代码，且log中没有error或warning

from rknn.api import RKNN



rknn = RKNN(verbose=True, verbose_file='./build.log')

rknn.config()



print('--> Loading model')

rknn.load_tensorflow(tf_pb='./model.pb',

                     inputs=['the_input'],

                     outputs=['Activation0/truediv'],

                     input_size_list=[[320000, 1]])

print('done')



# Build Model

print('--> Building model')

rknn.build(do_quantization=False)

print('done')



rknn.export_rknn('./model.rknn')



rknn.release()
复制代码

rknn模型inference代码

rknn = RKNN()

rknn.load_rknn('./model.rknn')

ret = rknn.init_runtime(target='rk3399pro')

if ret != 0:

    print('Init runtime environment failed')

    exit(ret)

print('done')



# x_in.size  = (1, 320000, 1)

x_in, in_len = load_wav_input(filename)



out = rknn.inference(inputs=[x_in], data_type='float32')
复制代码

同样的环境原来模型没用Reshape直接输入(1600,200,1)可以inference，但最后softmax后np.sum(out)应该=200，pb模型是这样，但rknn模型np.sum(out)是几千完全不对，因此想输入一维向量在模型中reshape，但出之前的错误

只看该作者 · 发表于 2019-5-21 13:51:27

protossw512 发表于 2019-5-21 06:05
对，因为它转换的时候和inference的时候长宽两个维度的顺序反了，所以可以正产转换，但是没办法读取来做i ...

可是照你这样说的话模型中就不支持长宽不同的输入reshape操作了？

只看该作者 · 发表于 2019-5-23 14:14:30

我们的rknn-toolkit1.0.0已经发布，另外toybrick prod的V1.2版本也已经发布了。
你把固件和rknn-toolkit升级到最新版本。