Toybrick

标题: RKNN对文本转语音任务支持怎么样,比如tacotron2 [打印本页]

作者: xsky    时间: 2020-2-18 16:43
标题: RKNN对文本转语音任务支持怎么样,比如tacotron2


RKNN 从文档来看,接口基本都是为图片设计的,请问对于TTS任务要怎么做?
1. 比如输入是不定长的,怎么处理。
2.支持LSTM吗?  NPU为1*x的卷积操作是不是支持的效率不是很高,3399pro单测FC一层的模型,仅看硬件执行时间,参数量少于512K时,fp16效率不如Cortex A72单核fp32。
3.如果编写自定义运算符来支持LSTM,自定义运算符文档叙述说不支持量化,如果模型本身已经是量化的,在自定义运算符处输入的是不是也是量化的数据?  
4.使用VX Kernel编写自定义运算符,是会编译为NPU加速的代码么? 其中的数据类型int8/int16/int32/fp16,NPU都能支持么。

想用rk1808加速棒来做产品,希望帮忙解答,谢谢!

作者: jefferyzhang    时间: 2020-2-19 10:17
本帖最后由 jefferyzhang 于 2020-2-19 10:18 编辑

1. 不定长不支持,你可以通过补0来自己做一些处理
2. LSTM没转换过,你可以试试。 NPU对3x3卷积优化比较明显,对CONV+RELU+MAXPOOLING合并操作提升极大,其他的不一定很明显。你这情况明显直接用CPU跑可能更方便。
3. LSTM做量化,那不是精度损失很严重?这款NPU不量化浮点计算能力也挺强,语音文本数据量没有图片那么大,我认为没必要往量化方面走。量化无非是浮点转定点映射操作,自定OP可以自己写反量化运算,跟支不支持是无关的。
4.vx写的op是会用NPU,但不一定会很明显,比如做一些简单的加加减减运算,说不定比用cpu写还慢。你说的类型应该都支持,具体查看下文档。
作者: xsky    时间: 2020-2-19 19:15
嗯,谢谢
作者: xsky    时间: 2020-2-19 19:16
jefferyzhang 发表于 2020-2-19 10:17
1. 不定长不支持,你可以通过补0来自己做一些处理
2. LSTM没转换过,你可以试试。 NPU对3x3卷积优化比较明 ...


嗯,谢谢

作者: 1105060120    时间: 2020-7-24 09:30
我也在做TTS转语音,希望有机会交流




欢迎光临 Toybrick (https://t.rock-chips.com/) Powered by Discuz! X3.3