【问题标题】:How to handle quick_exit in a class member thread when `this` becomes a nullptr?当`this`变成nullptr时,如何在类成员线程中处理quick_exit?
【发布时间】:2020-09-24 19:58:54
【问题描述】:

我有这个小sn-p代码:

// (...)
class Time 
{
  std::atomic<bool> m_running;
  std::thread m_worker;
  // ...
};


Time::Time()
{
  // ...
  m_running = true;
  m_worker  = std::move(std::thread(std::bind(&Time::Worker, this)));
}


bool Time::HasTimedOut() const
{
  return (!m_disabled) &&
         (IsPending() && (GetRunTime() >= m_maximum_timeout) && (CloseHandlesDiff() >= m_minimum_close_time));
}

Time::~Time()
{
  if (m_running)
  {
    m_running = false;
    m_worker.join();
  }
}

void Time::Worker()
{
  while (m_running)
  {
    if (time_data->HasTimedOut())
    {
      time_data->RunTimedOutCallback();
    }

    if (m_count < 0)
    {
      m_count = 0;
    }

    if (m_running)
    {
      std::this_thread::sleep_for(std::chrono::milliseconds(20));
    }
  }
}

std::shared_ptr<Time> time_data(std::make_shared<Time>());

令我惊讶的是,我得到了一个核心转储,而来自 gdb 的回溯命令显示了这一点:

(gdb) bt
#0  0x09438408 in monitor::Time::HasTimedOut (this=0x0)
    at monitor.cxx: // return (!m_disabled) &&
#1  0x09438a84 in monitor::Time::Worker (this=0xbd96dd8)
    monitor.cxx: // if(time_data->HasTimedOut()
#2  0x0943cf81 in std::__invoke_impl<void, void (monitor::Time::*&)(), monitor::Time*&> (
    __f=@0xbd96e54: (void (monitor::Time::*)(monitor::Time * const)) 0x94389f0 <monitor::Time::Worker()>, __t=@0xbd96e5c: 0xbd96dd8)

一个 nullptr 似乎是问题所在(SEGFAULT):

(this=0x0)

这意味着我的类被销毁了,而没有调用析构函数。

据我所知/怀疑,当我的应用程序的操作系统/看门狗强制退出/快速终止时,这可能是可能的。

有没有办法解决这个问题?也许一些 shared_ptr 原子包装,我可以检查 shared_ptr 是否为 nullptr,是否有一些原子 if-not-null-execute-this?话又说回来..这确实发生在执行中期。

我知道可以添加快速退出挂钩,但有时使用快速退出是出于很好的理由,减慢快速退出的速度将违反设计。处理这个成为 nullptr 的最佳方法是什么?

或者我是否应该让 SEGFALT 发生,因为无论如何应用程序正在快速退出?

这是完整的堆栈,但可能不会添加更多有用的信息:

(gdb) bt
(gdb) bt
#0  0x09438408 in monitor::Time::HasTimedOut (this=0x0)
    at /opt/procesleiding/vptlib/lib/oracle_monitor.cxx:111
#1  0x09438a84 in monitor::Time::Worker (this=0xbd96dd8)
    at /opt/procesleiding/vptlib/lib/oracle_monitor.cxx:142
#2  0x0943cf81 in std::__invoke_impl<void, void (monitor::Time::*&)(), monitor::Time*&> (
    __f=@0xbd96e54: (void (monitor::Time::*)(monitor::Time * const)) 0x94389f0 <monitor::Time::Worker()>, __t=@0xbd96e5c: 0xbd96dd8)
    at /usr/include/c++/7/bits/invoke.h:73
#3  0x0943c99f in std::__invoke<void (monitor::Time::*&)(), monitor::Time*&> (
    __fn=@0xbd96e54: (void (monitor::Time::*)(monitor::Time * const)) 0x94389f0 <monitor::Time::Worker()>, __args#0=@0xbd96e5c: 0xbd96dd8)
    at /usr/include/c++/7/bits/invoke.h:95
#4  0x0943c70c in std::_Bind<void (monitor::Time::*(monitor::Time*))()>::__call<void, , 0u>(std::tuple<>&&, std::_Index_tuple<0u>) (
    this=0xbd96e54, __args=...)
    at /usr/include/c++/7/functional:467
#5  0x0943c28c in std::_Bind<void (monitor::Time::*(monitor::Time*))()>::operator()<, void>() (this=0xbd96e54)
    at /usr/include/c++/7/functional:551
#6  0x0943bcaf in std::__invoke_impl<void, std::_Bind<void (monitor::Time::*(monitor::Time*))()>>(std::__invoke_other, std::_Bind<void (monitor::Time::*(monitor::Time*))()>&&) (__f=...) at /usr/include/c++/7/bits/invoke.h:60
#7  0x0943b022 in std::__invoke<std::_Bind<void (monitor::Time::*(monitor::Time*))()>>(std::_Bind<void (monitor::Time::*(monitor::Time*))()>&&) (__fn=...) at /usr/include/c++/7/bits/invoke.h:95
#8  0x0943e2a6 in std::thread::_Invoker<std::tuple<std::_Bind<void (monitor::Time::*(monitor::Time*))()> > >::_M_invoke<0u>(std::_Index_tuple<0u>) (this=0xbd96e54) at /usr/include/c++/7/thread:234
#9  0x0943e15c in std::thread::_Invoker<std::tuple<std::_Bind<void (monitor::Time::*(monitor::Time*))()> > >::operator()() (this=0xbd96e54) at /usr/include/c++/7/thread:243
#10 0x0943e067 in std::thread::_State_impl<std::thread::_Invoker<std::tuple<std::_Bind<void (monitor::Time::*(monitor::Time*))()> > > >::_M_run() (this=0xbd96e50) at /usr/include/c++/7/thread:186

【问题讨论】:

  • 这意味着指针被分配了nullptr,然后在这个指针上调用了方法。请提供更多代码和更多调用堆栈项(回溯),因为错误隐藏得更深。
  • 更多代码只是 std::bind 从 std::thread 调用工作线程。更多的代码可能只会污染问题。也许我也会添加构造函数。
  • 是的,这个 - 展示它!问题很可能与指针生命周期有关。
  • 你在哪里设置time_data的值?
  • time_data 是全局变量吗?也许你应该添加一个“删除”函数,当线程被删除时杀死它?

标签: c++ thread-safety terminate


【解决方案1】:

您的代码存在竞争条件。

Time::Time()
{
  // ...
  m_running = true;
  m_worker  = std::move(std::thread(std::bind(&Time::Worker, this)));
}

从这里开始

std::shared_ptr<Time> time_data(std::make_shared<Time>());

已完成。

简单的线程在std::shared_ptr&lt;Time&gt; time_data(std::make_shared&lt;Time&gt;());完成之前到达monitor::Time::HasTimedOut

生成线程不在构造函数中,而是在分配time_data 后调用的单独方法中。

无论如何,如果您的Timer 根本不使用time_data 全局变量会更好。

【讨论】:

  • 哦,如果是这样,那我就犯了一个非常愚蠢的错误。我会仔细检查解决方案。我意识到它确实不需要使用它(复制粘贴错误)。
  • 我已经确认这确实有效,但我仍然想知道应用程序是否可以在不调用析构函数时保护自己免受 SEGFAULT 的影响。也许我会再次询问何时可以使用 std::quick_exit 展示一个工作示例。 (正在努力)。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-03-06
  • 1970-01-01
  • 2011-11-28
  • 1970-01-01
  • 1970-01-01
  • 2011-03-05
  • 1970-01-01
相关资源
最近更新 更多