|
这个主要是因为tf会将很多OP给组合起来变成子图,造成本来可以识别的op被封装了一层就无法识别了。
并且硬件OP和软件OP并不是一一对应的,例如我们硬件会将 Conv2D-Relu-Maxpooling合成一个OP,效率很快。
有几种方案你可以试下:
1. keras转tf后,可以用remove traning nodes指令拆散子图结构,可以尝试下
2. 其实这里不建议用LeakyRelu,因为这个在硬件上是单独一个OP,如果你改成Relu,会被硬件三合一为一个OP,极大提高效率
3. 试着改下leakyRelu前后的op,尽量减少矩阵操作add、sub、div、mul之类的单独操作。 |
|