RKNN对文本转语音任务支持怎么样，比如tacotron2

[复制链接] · 发表于 2020-2-18 16:43:42

RKNN 从文档来看，接口基本都是为图片设计的，请问对于TTS任务要怎么做？
1. 比如输入是不定长的，怎么处理。
2.支持LSTM吗？ NPU为1*x的卷积操作是不是支持的效率不是很高，3399pro单测FC一层的模型，仅看硬件执行时间，参数量少于512K时，fp16效率不如Cortex A72单核fp32。
3.如果编写自定义运算符来支持LSTM，自定义运算符文档叙述说不支持量化，如果模型本身已经是量化的，在自定义运算符处输入的是不是也是量化的数据？
4.使用VX Kernel编写自定义运算符，是会编译为NPU加速的代码么？其中的数据类型int8/int16/int32/fp16，NPU都能支持么。

想用rk1808加速棒来做产品，希望帮忙解答，谢谢！

只看该作者 · 发表于 2020-2-19 10:17:32

本帖最后由 jefferyzhang 于 2020-2-19 10:18 编辑

1. 不定长不支持，你可以通过补0来自己做一些处理
2. LSTM没转换过，你可以试试。 NPU对3x3卷积优化比较明显，对CONV+RELU+MAXPOOLING合并操作提升极大，其他的不一定很明显。你这情况明显直接用CPU跑可能更方便。
3. LSTM做量化，那不是精度损失很严重？这款NPU不量化浮点计算能力也挺强，语音文本数据量没有图片那么大，我认为没必要往量化方面走。量化无非是浮点转定点映射操作，自定OP可以自己写反量化运算，跟支不支持是无关的。
4.vx写的op是会用NPU，但不一定会很明显，比如做一些简单的加加减减运算，说不定比用cpu写还慢。你说的类型应该都支持，具体查看下文档。

只看该作者 · 发表于 2020-2-19 19:15:50

嗯，谢谢

只看该作者 · 发表于 2020-2-19 19:16:11

jefferyzhang 发表于 2020-2-19 10:17
1. 不定长不支持，你可以通过补0来自己做一些处理
2. LSTM没转换过，你可以试试。 NPU对3x3卷积优化比较明 ...

嗯，谢谢

只看该作者 · 发表于 2020-7-24 09:30:15

我也在做TTS转语音，希望有机会交流