【问题标题】:Valgrind hanging to profile a multi threaded programValgrind 挂起以分析多线程程序
【发布时间】:2012-04-25 10:51:02
【问题描述】:

我有一个在多核机器上运行的多线程程序(在 Linux 平台上使用 Pthreads 在 C 中实现)。我正在使用带有 --memcheck 选项的 ValGrind 来查找我的代码中存在的一些内存问题。但它挂起。为了对问题有一个完整的概述,这里是背景。

代码在开始时有一些顺序部分作为初始化的一部分,后来它创建了 8 个线程(使用 Pthread API)和梯级完成。一段时间后,我的代码转储了“核心”。我使用了 GDB,它给出了以下跟踪。

======= Backtrace: =========  
/lib/tls/i686/cmov/libc.so.6[0xb7cd47cd]  
/lib/tls/i686/cmov/libc.so.6(cfree+0x90)[0xb7cd7e30]  
/home/kumar/CycleSim/slack_cp/sim-outorder[0x819a6c9]  
/home/kumar/CycleSim/slack_cp/sim-outorder[0x8167e3e]  
/home/kumar/CycleSim/slack_cp/sim-outorder[0x804f5e4]  
/lib/tls/i686/cmov/libpthread.so.0[0xb7f8c31b]  
/lib/tls/i686/cmov/libc.so.6(clone+0x5e)[0xb7d3c57e]  
======= Memory map: ========  
08048000-081b5000 r-xp 00000000 08:11 11813248  
/home/kumar/CycleSim/slack_cp/sim-outorder  
081b5000-081b8000 rw-p 0016c000 08:11 11813248  
/home/kumar/CycleSim/slack_cp/sim-outorder  
081b8000-08549000 rw-p 081b8000 00:00 0          [heap]  
ab9fd000-ab9fe000 ---p ab9fd000 00:00 0  
ab9fe000-ac1fe000 rw-p ab9fe000 00:00 0  
ac1fe000-ac1ff000 ---p ac1fe000 00:00 0  
ac1ff000-ac9ff000 rw-p ac1ff000 00:00 0  
ac9ff000-aca00000 ---p ac9ff000 00:00 0  
aca00000-ad2cb000 rw-p aca00000 00:00 0  
ad2cb000-ad300000 ---p ad2cb000 00:00 0  
ad3bf000-ad3c0000 ---p ad3bf000 00:00 0  
ad3c0000-adbc0000 rw-p ad3c0000 00:00 0  
adbc0000-adbc1000 ---p adbc0000 00:00 0  
adbc1000-ae3c1000 rw-p adbc1000 00:00 0  
ae3c1000-ae3c2000 ---p ae3c1000 00:00 0  
ae3c2000-aebc2000 rw-p ae3c2000 00:00 0  
aebc2000-aebc3000 ---p aebc2000 00:00 0  
aebc3000-b2e7d000 rw-p aebc3000 00:00 0  
b2e7d000-b2e7e000 ---p b2e7d000 00:00 0  
b2e7e000-b367e000 rw-p b2e7e000 00:00 0  
b367e000-b367f000 ---p b367e000 00:00 0  
b367f000-b7c6d000 rw-p b367f000 00:00 0  
b7c6d000-b7da8000 r-xp 00000000 08:01 12895490   /lib/tls/i686/cmov/libc-2.5.so  
b7da8000-b7da9000 r--p 0013b000 08:01 12895490   /lib/tls/i686/cmov/libc-2.5.so  
b7da9000-b7dab000 rw-p 0013c000 08:01 12895490   /lib/tls/i686/cmov/libc-2.5.so  
b7dab000-b7dae000 rw-p b7dab000 00:00 0  
b7dae000-b7dde000 r-xp 00000000 08:21 3828021    /usr/lib/libgslcblas.so.0.0.0  
b7dde000-b7ddf000 rw-p 0002f000 08:21 3828021    /usr/lib/libgslcblas.so.0.0.0  
b7ddf000-b7f7d000 r-xp 00000000 08:21 3828022    /usr/lib/libgsl.so.0.9.0  
b7f7d000-b7f87000 rw-p 0019d000 08:21 3828022    /usr/lib/libgsl.so.0.9.0  
b7f87000-b7f9a000 r-xp 00000000 08:01 12895516  
/lib/tls/i686/cmov/libpthread-2.5.so  
b7f9a000-b7f9c000 rw-p 00013000 08:01 12895516  
/lib/tls/i686/cmov/libpthread-2.5.so  
b7f9c000-b7f9f000 rw-p b7f9c000 00:00 0  
b7f9f000-b7fc4000 r-xp 00000000 08:01 12895498   /lib/tls/i686/cmov/libm-2.5.so  
b7fc4000-b7fc6000 rw-p 00024000 08:01 12895498   /lib/tls/i686/cmov/libm-2.5.so  
b7fc9000-b7fd4000 r-xp 00000000 08:01 12861504   /lib/libgcc_s.so.1  
b7fd4000-b7fd5000 rw-p 0000a000 08:01 12861504   /lib/libgcc_s.so.1  
b7fd5000-b7fd9000 rw-p b7fd5000 00:00 0  
b7fd9000-b7ff2000 r-xp 00000000 08:01 12861461   /lib/ld-2.5.so  
b7ff2000-b7ff4000 rw-p 00019000 08:01 12861461   /lib/ld-2.5.so  
bf8a0000-bf8b5000 rw-p bf8a0000 00:00 0          [stack]  
ffffe000-fffff000 r-xp 00000000 00:00 0          [vdso]  

虽然我使用了 -g 选项并且没有 O 标志,但它并没有给出问题所在的确切代码位置。我

在网上搜索后我明白了,这是因为我破坏了记忆。将数据写入数组越界(是的,我使用的是大数组,但我在访问数组中的每个元素之前明确检查)或访问非法堆内存。 但是由于代码很大,我无法仅仅看它。所以我求助于 ValGrind 来看看内存损坏发生在哪里。我用 ValGrind 运行代码,它运行良好,直到代码的顺序部分,但是当涉及到并行部分(Pthread 创建部分)时,它什么也没做。在“top -H -p pid”的帮助下,我看到所有线程都已创建,但它们处于睡眠模式。我运行了很长时间的原始代码(没有 valgrind)没有挂起(但我不能保证它没有死锁)。使用 Helgrind(valgrind 的线程错误检测器)有用吗?

谁能指出我的文档或类似问题。它是 ValGrind 版本 2。机器是 i686,Linux 操作系统。

谢谢 D.L.库马尔

【问题讨论】:

  • 那是非常非常庞大的代码数据库。超过 > 15K 行并取决于这么多外部库。这就是原因,花了一周时间查看代码的每个角落后,我找不到问题并转向这些自动工具
  • 首先,你为什么不用更新的 Valgrind 版本试试呢?
  • 你等得够久了吗?它可能看起来 valgrind 挂起,但它可能仍在运行。请记住,使用 valgrind 时,您的程序运行速度会慢 25-50 倍。
  • @Malkocoglu 我肯定会更新并尝试。
  • @rve 我等了一夜,我什至一直在检查线程的状态。它们处于睡眠状态。

标签: c++ multithreading debugging valgrind


【解决方案1】:

也许你可以检查一下 valgrind stalls in multithreaded socket program Valgrind 强制应用程序在单核上运行,不确定这是否会导致您的情况出现问题。

【讨论】:

  • 这很有趣,我认为这绝对是问题所在。感谢您指出这一点。我正在明确映射所有线程(自己负责调度)以在 8 核上运行(我的主机是 8 核机器)。由于 Valgrind 基本上是 x86 平台的仿真,所以它只能在一个内核上运行。
  • 现在,我让所有线程在单核上运行(现在只是为了调试)它没有挂起。但我想知道这些工具的用处是什么。只有在多核上运行时才会出现真正的并发问题。 Helgrind 是一个线程并发检查器。至少它应该是平行的。
  • 我记得在具有大量活动客户端连接的多线程程序上使用 valgrind,它可以正常工作,只是有点慢...
猜你喜欢
  • 2022-02-27
  • 1970-01-01
  • 2019-07-08
  • 2011-05-21
  • 2010-09-05
  • 1970-01-01
  • 2021-07-15
  • 1970-01-01
  • 2012-03-19
相关资源
最近更新 更多