|
相关部门回复:(新版本已修复)
这个模型在新版本驱动里(v1.3.0)可以跑,但是因为这个网络用了大量的Add/Mean/Pow/Sub/Sqrt/Div等操作,这些操作大部分无法量化,无法跑在专有加速器上,只能跑在通用Shader上,因此性能非常低,建议客户尽量把这种零散的操作放到模型外,或者用常用的tensorflow的op(如pooling)来替换这些Add/Mean/Pow/Sub/Sqrt/Div操作,才可以有效的将NPU的加速单元利用起来。
另外,这些 Add/Mean/Pow/Sub/Sqrt/Div 操作看起来视乎是BN的操作,可以用标准的BN层来代替,我们的硬件是支持标准的BN层的。 |
|