C++ 强化学习和智能指针答案

【问题标题】：C++ Reinforcement learning and smart pointersC++ 强化学习和智能指针
【发布时间】：2011-07-06 21:58:23
【问题描述】：

我正在使用强化学习方法（Q、sarsa、TD(λ)、Actor-Critic、R 等）进行关于机器人感觉运动在线学习的硕士项目。我目前正在设计将使用更高级别的强化学习和更低级别的机器人 API 控制的框架。

由于状态依赖于机器人传感器并且可能（将）呈指数增长，因此我将在堆上分配它们。由于这会产生很多问题、错误等，而且由于并行化（即线程）是我想要探索的强化学习的一个方面，所以我还不确定要使用哪种智能指针。

为智能指针设计我自己的模板/类需要时间和调试，而我没有。所以，我想知道，我应该使用 STL 的auto_ptr 吗？我看到他们在向量中使用了问题。我应该使用boost::shared_ptr 吗？这些状态必须在许多类和算法之间共享。或者我应该使用boost::ptr_vector？由于状态将驻留在向量中的任务容器类中，这是否足够？状态必须是共享的、可复制的、可引用的、可序列化的、非常量的、线程安全的并且不会被删除。此外，内存空间和计算时间也很重要。

对于此类任务，您推荐什么作为最佳智能 ptr 实现？

谢谢！

看来我将不得不尝试将 boost::ptr_vector 与 class State 一起使用，如果这证明效率不高，则使用 std::vector 并启用 0X。谢谢大家的回答和建议！

【问题讨论】：

不，我没有，但我会考虑使用它，我使用的是 gcc 4.5，我知道它可以启用，但有一定的限制。 0X 在这个问题上的优势是什么？
您可以使用unique_ptr，它相当轻量级（比shared_ptr 轻）。而且由于它是可移动构造的，我相信你甚至可以在std::vector 中使用它。
谢谢，我会认真考虑，但由于我不知道整个项目如何启用 0X，所以我有点怀疑。
这是最不用担心的：将-std=c++0x 添加到您的命令行！
与原始指针的 boost::ptr_vector 相比，使用 std::vector<:unique_ptr> 有什么优势？

标签： c++ smart-pointers reinforcement-learning

【解决方案1】：

单一所有权指针更难被滥用，以std::auto_ptr 的设计为模。您可以考虑使用boost::scoped_ptr，它更安全（但它不能转移所有权，也不能从函数中返回）。对于容器，您可以使用指针容器，但也可以使用例如std::vector 如果所涉及的类型没有被多态使用，则没有智能指针。

共享所有权仍应属于例外情况；不要过度使用boost::shared_ptr。

【讨论】：

感谢您的回复。如果不能从函数返回指针，那就是个问题。我不在乎转让所有权。这些类型将被多态地使用，至少其中一些，所以使用 std::vector 是我的问题之一。
@Alex std::auto_ptr 仍然是一个选项。 const std::auto_ptr 还可以防止意外转让所有权。
@Alex 不要将std::auto_ptr 与标准容器一起使用。为多态行为使用 Boost 指针容器。
auto_ptr 是在没有语言支持的情况下实现传输语义的 C++98 方式，这是一个壮观的 hack。因此，您不能在容器中使用它，在 C++98 中容器要求元素类型遵守复制语义。在 C++0x 中，unique_ptr 是 auto_ptr 试图做的事情的正确方法。
@Alex 不要使用boost::ptr_vector<std::auto_ptr<T> >（或boost::ptr_vector<T*>）；使用boost::ptr_vector<T>。检查文档。（而boost::ptr_vector<T> 旨在与std::auto_ptr<T> 交互。）

【解决方案2】：

其他建议遗漏了一项。 boost::intrusive_ptr 比 shared_ptr 执行得更好，因为它不需要第二次分配来保存引用计数。 intrusive_ptr 的缺点是一点点额外的记账，并且无法使用 weak_ptr。

【讨论】：

我们说的有多小？
@Alex：你想阅读关于它的 Boost 文档，但你需要提供一个引用计数字段和函数来增加和减少它。
是的，我刚刚阅读了文档。但是，我不明白为什么它会比 shared_ptr 更好，这似乎是我目前最好的选择。
@Alex：shared_ptr 引用存储在一个单独的内存块中，这会导致另一个间接指针查找和第二个缓存行反弹。如果您想自己查看，intrusive_ptr 还可以让您直接了解引用计数。这只是另一种选择，不是很重要。

【解决方案3】：

我在做 c++ 时从未找到我喜欢的智能 ptr 类。最后我自己写了。

它具有高速缓存功能，因此您可以不断分配和释放内存，它可以保留它拥有的内存并重新使用它。此外它没有默认构造函数，因此您必须通过引用将其传递给函数/方法，否则编译器会显示错误，因此它不会创建内存的临时副本，尤其是在处理大图像文件时。

编写自己的代码不会花费太长时间，您也可以添加自己的边界检查代码。

【讨论】：

您的类是否具有原子引用计数更新，以便可以在多线程环境中使用？
当时我从不需要编写多线程代码。但是，如果代码在关键部分之间使用它应该可以工作吗？
假设我走这条路，除了析构函数、原子引用和锁之外，我还需要包括什么？
看看std::shared_ptr 是如何实现的 :-) 这是数量惊人的簿记代码。 std::unique_ptr 应该更简单，而且由于移动语义，它也非常有用。
如果您决定自己编写，您需要覆盖各种运算符才能使其正常工作。您可以使用临界区或自旋锁的锁。将其编写为模板以供将来使用也是一个好主意。但是，只有您可以决定是否有时间等。