Toybrick

楼主: 程子

rknn.load_tensorflow() 时报错 segmentation fault

yhc

注册会员

积分
177
发表于 2019-2-21 11:25:07 | 显示全部楼层
在pc上能试一下吗,或者你能input或output换个别的节点取一下看能发现什么规律吗
如果可能看能不能截个网络我们这边能复现
回复

使用道具 举报

程子

中级会员

积分
386
 楼主| 发表于 2019-2-21 14:18:15 | 显示全部楼层
还是在板子上跑的
尝试更换输入输出节点,发现了一点端倪:
我的输出节点中,有一个节点是concat了10个tensor。

  1. for i in range(10):
  2.     output0 = tf.concat(values = [output0, tf.expand_dims(input_i, -1)], axis=4)
  3. output0 = tf.clip_by_value(output0 , 0, 255)
复制代码

当我选择 XXXXX/concat_9 或者 input_10 作为输出节点的时候,报错如同之前算子不支持。
当我选择 XXXXX/concat_10 作为输出节点的时候,报错
  1. [1]    8677 killed     ./convert.py
复制代码

选择包括 XXXXX/concat_10 在内的多个节点做输出节点的时候,报错
  1. [1]    8741 segmentation fault (core dumped)  ./convert.py
复制代码
回复

使用道具 举报

程子

中级会员

积分
386
 楼主| 发表于 2019-2-21 14:32:03 | 显示全部楼层
在PC上跑,无论如何选择输出节点,都是报正常的算子不支持的错误,形如:

  1. I Try match ExpandDims XXXXXXXX/ExpandDims
  2. W Not match node XXXXXXXX/ExpandDims ExpandDims
  3. E Catch exception when loading tensorflow model: XXXXXXXX.pb!
  4. T Traceback (most recent call last):
  5. T   File "rknn/api/rknn_base.py", line 191, in rknn.api.rknn_base.RKNNBase.load_tensorflow
  6. T   File "rknn/base/rknnlib/converter/convert_tf.py", line 533, in rknn.base.rknnlib.converter.convert_tf.convert_tf.match_paragraph_and_param
  7. T   File "rknn/base/rknnlib/converter/convert_tf.py", line 438, in rknn.base.rknnlib.converter.convert_tf.convert_tf._tf_push_ready_node
  8. T TypeError: 'NoneType' object is not iterable
复制代码


看来和板子的环境有关系。
回复

使用道具 举报

程子

中级会员

积分
386
 楼主| 发表于 2019-2-21 14:50:47 | 显示全部楼层
基本破案了,应该是因为爆内存了。
给板子插了个32GB优盘做SWAP,重复上面的模型转换的步骤,并未出现killed或segmentation fault,而是全部都是报算子不支持。
观察发现模型转换在板子上需要~6GB内存。

终于知道板子上的PCIe是干啥用的了,不说了,我去买905P。
回复

使用道具 举报

raul

中级会员

积分
235
发表于 2019-2-21 15:05:47 | 显示全部楼层
可以dmesg看下segment fault是哪个库导致的吗?
回复

使用道具 举报

程子

中级会员

积分
386
 楼主| 发表于 2019-2-21 15:18:18 | 显示全部楼层
  1. [247279.663755] python3 invoked oom-killer: gfp_mask=0x24201ca, order=0, oom_score_adj=0
  2. [247279.664525] python3 cpuset=/ mems_allowed=0
  3. [247279.665026] CPU: 0 PID: 8710 Comm: python3 Not tainted 4.4.167 #17
  4. [247279.665589] Hardware name: rockchip,rk3399pro-toybrick-prod-linux (DT)
  5. [247279.666187] Call trace:
  6. [247279.666445] [<ffffff8008088948>] dump_backtrace+0x0/0x220
  7. [247279.666949] [<ffffff8008088b8c>] show_stack+0x24/0x30
  8. [247279.667431] [<ffffff80083a85ac>] dump_stack+0x94/0xbc
  9. [247279.667911] [<ffffff80081a5224>] dump_header.isra.5+0x50/0x15c
  10. [247279.668458] [<ffffff8008166bd4>] oom_kill_process+0x94/0x3d4
  11. [247279.668980] [<ffffff8008167188>] out_of_memory+0x1d8/0x2a0
  12. [247279.669494] [<ffffff800816b670>] __alloc_pages_nodemask+0x6b0/0x724
  13. [247279.670074] [<ffffff8008165a6c>] filemap_fault+0x24c/0x35c
  14. [247279.670587] [<ffffff8008226e40>] ext4_filemap_fault+0x40/0x60
  15. [247279.671122] [<ffffff8008185dec>] __do_fault+0x78/0xdc
  16. [247279.671599] [<ffffff800818906c>] handle_mm_fault+0x538/0xca4
  17. [247279.672123] [<ffffff80080944e0>] do_page_fault+0x214/0x36c
  18. [247279.672632] [<ffffff800809468c>] do_translation_fault+0x54/0xc8
  19. [247279.673177] [<ffffff8008080b08>] do_mem_abort+0x54/0xac
  20. [247279.673662] Exception stack(0xffffffc0edba7e20 to 0xffffffc0edba7f50)
  21. [247279.674257] 7e20: 0000000000000000 00000040eee42000 ffffffffffffffff 0000007f9658331c
  22. [247279.674968] 7e40: ffffffc0edba7ea0 ffffff8008b5f884 ffffffc0f20c6c00 00000040eeeab000
  23. [247279.675679] 7e60: ffffffffffffffff 0000007f965461a4 ffffffc0edba7e90 ffffff8008088354
  24. [247279.676390] 7e80: 0000000000000008 0000007f965461a4 0000000000000000 ffffff8008082e14
  25. [247279.677100] 7ea0: 0000000000000000 00000040eee42000 ffffffffffffffff ffffffc0eb3f02c0
  26. [247279.677810] 7ec0: 0000007fc704f440 0000007f9c050a18 0000000000000000 0000000065707974
  27. [247279.678521] 7ee0: 0000000065707974 0000000000000000 746b605571737340 7f7f7f7f7f7f7f7f
  28. [247279.679231] 7f00: 0000007fc704f440 0000007faa89a0d0 0000000000000000 0000000000000002
  29. [247279.679941] 7f20: 0000000000000001 0000000000000000 0000000000000000 000000000000270f
  30. [247279.680648] 7f40: 0000007f9be40f88 0000007f9150d638
  31. [247279.681110] [<ffffff8008082b4c>] el0_ia+0x18/0x1c
  32. [247279.681663] Mem-Info:
  33. [247279.681982] active_anon:956797 inactive_anon:4397 isolated_anon:0
  34.                  active_file:258 inactive_file:286 isolated_file:0
  35.                  unevictable:0 dirty:0 writeback:0 unstable:0
  36.                  slab_reclaimable:7398 slab_unreclaimable:5926
  37.                  mapped:2668 shmem:12455 pagetables:2842 bounce:0
  38.                  free:1954 free_pcp:408 free_cma:0
  39. [247279.685033] DMA free:8704kB min:7936kB low:9920kB high:11904kB active_anon:3827188kB inactive_anon:17588kB active_file:628kB inactive_file:584kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:4030464kB managed:3937932kB mlocked:0kB dirty:0kB writeback:0kB mapped:10292kB shmem:49820kB slab_reclaimable:29592kB slab_unreclaimable:23704kB kernel_stack:3888kB pagetables:11368kB unstable:0kB bounce:0kB free_pcp:1584kB local_pcp:120kB free_cma:0kB writeback_tmp:0kB pages_scanned:128 all_unreclaimable? no
  40. [247279.689251] lowmem_reserve[]: 0 0 0
  41. [247279.689748] DMA: 256*4kB (ME) 81*8kB (ME) 70*16kB (ME) 47*32kB (ME) 12*64kB (ME) 5*128kB (UME) 2*256kB (UM) 3*512kB (UM) 2*1024kB (M) 0*2048kB 0*4096kB = 9800kB
  42. [247279.691526] 12609 total pagecache pages
  43. [247279.691940] 0 pages in swap cache
  44. [247279.692290] Swap cache stats: add 0, delete 0, find 0/0
  45. [247279.692830] Free swap  = 0kB
  46. [247279.693108] Total swap = 0kB
  47. [247279.693403] 1007616 pages RAM
  48. [247279.693731] 0 pages HighMem/MovableOnly
  49. [247279.694096] 23133 pages reserved
  50. [247279.694404] [ pid ]   uid  tgid total_vm      rss nr_ptes nr_pmds swapents oom_score_adj name
  51. [247279.695296] [  200]     0   200    14410      619      22       4        0             0 systemd-journal
  52. [247279.696225] [  314]    81   314     2452      317       8       4        0          -900 dbus-daemon
  53. [247279.697145] [  315]     0   315     3790      197      11       3        0             0 systemd-logind
  54. [247279.698057] [  316]     0   316     4951      224      13       4        0             0 rngd
  55. [247279.698908] [  318]     0   318    61748      403      36       3        0             0 rsyslogd
  56. [247279.699773] [  319]   172   319    38767       91      11       3        0             0 rtkit-daemon
  57. [247279.700689] [  320]     0   320    98258      494      25       3        0             0 udisksd
  58. [247279.701509] [  321]    70   321     2260      129       8       3        0             0 avahi-daemon
  59. [247279.702419] [  330]     0   330     2648      113       9       3        0             0 bluetoothd
  60. [247279.703312] [  337]    70   337     2228       98       8       3        0             0 avahi-daemon
  61. [247279.704236] [  340]     0   340     1091       72       6       4        0             0 alsactl
  62. [247279.705099] [  345]     0   345    19890       88       8       4        0             0 irqbalance
  63. [247279.705972] [  347]     0   347   112810      442      22       3        0             0 abrtd
  64. [247279.706835] [  350]     0   350    64005      167      16       5        0             0 gssproxy
  65. [247279.707706] [  351]     0   351     1773      214       7       4        0             0 smartd
  66. [247279.708544] [  352]   998   352   531044     1877      50       5        0             0 polkitd
  67. [247279.709393] [  354]     0   354    78489      337      20       5        0             0 ModemManager
  68. [247279.710303] [  363]   982   363    19755      101       8       4        0             0 chronyd
  69. [247279.711153] [  410]     0   410    79995      369      40       4        0             0 abrt-dump-journ
  70. [247279.712079] [  411]     0   411    77984      398      35       5        0             0 abrt-dump-journ
  71. [247279.712995] [  412]     0   412    75898      361      37       3        0             0 abrt-dump-journ
  72. [247279.713928] [  434]     0   434   151530      874      32       3        0             0 NetworkManager
  73. [247279.714789] [  460]     0   460     3504      211      11       3        0         -1000 sshd
  74. [247279.715576] [  463]     0   463    56819      338      16       4        0             0 cupsd
  75. [247279.716362] [  469]     0   469    52375      190       9       3        0             0 crond
  76. [247279.717157] [  471]     0   471     1052       53       6       4        0             0 atd
  77. [247279.717934] [  486]     0   486    51722       37       8       5        0             0 agetty
  78. [247279.718740] [  488]     0   488     1639       89       7       4        0             0 lxdm-binary
  79. [247279.719561] [  493]     0   493   160840     6784      78       4        0             0 Xorg
  80. [247279.720348] [  521]     0   521     3429      257      12       3        0             0 wpa_supplicant
  81. [247279.721205] [  543]     0   543    60212      923      23       3        0             0 lxdm-greeter-gt
  82. [247279.722072] [  557]     0   557    79106     9452      34       3        0             0 npu_transfer_pr
  83. [247279.722945] [  572]     0   572     4257      476      13       3        0             0 dhclient
  84. [247279.723762] [30042]     0 30042     4596      276      13       3        0             0 sshd
  85. [247279.724545] [30056]  1000 30056     4355      296      14       4        0             0 systemd
  86. [247279.725344] [30059]  1000 30059    45583      712      22       4        0             0 (sd-pam)
  87. [247279.726162] [30065]  1000 30065    91092      280      20       3        0             0 pulseaudio
  88. [247279.726995] [30066]  1000 30066     4596      287      13       3        0             0 sshd
  89. [247279.727783] [30075]  1000 30075    53352      554      11       4        0             0 zsh
  90. [247279.728555] [30139]  1000 30139     2196       96       8       4        0             0 dbus-daemon
  91. [247279.729389] [30140]     0 30140     4596      277      12       4        0             0 sshd
  92. [247279.730179] [30152]  1000 30152     4596      289      12       4        0             0 sshd
  93. [247279.730967] [30159]  1000 30159    53387      568      12       4        0             0 zsh
  94. [247279.731748] [30794]     0 30794     4001      291      12       4        0         -1000 systemd-udevd
  95. [247279.732586] [ 8710]  1000  8710  1240950   919655    2026       8        0             0 python3
  96. [247279.733381] Out of memory: Kill process 8710 (python3) score 936 or sacrifice child
  97. [247279.734435] Killed process 8710 (python3) total-vm:4963800kB, anon-rss:3678620kB, file-rss:0kB
复制代码
回复

使用道具 举报

程子

中级会员

积分
386
 楼主| 发表于 2019-2-21 15:22:51 | 显示全部楼层
好像就是简单粗暴的OOM了,而已。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

产品中心 购买渠道 开源社区 Wiki教程 资料下载 关于Toybrick


快速回复 返回顶部 返回列表