【发布时间】:2020-08-16 06:12:56
【问题描述】:
我的应用程序分为两个阶段:
- 创建了一个大型数据结构,涉及大量临时对象并使用引用计数进行堆管理
- 将数据结构设为只读,任何仍处于活动状态的数据都将被停放,并将生成的结构发送到另一个线程进行读取。
(为了更加具体,应用程序是一个语言服务器,数据结构是处理单个文件,这些文件是单线程处理的,但其结果必须跨线程传递。)
目前,我使用Arc<T> 来管理数据结构,但由于阶段1 大且昂贵且单线程,我想将其切换为使用Rc<T>。但是Rc 既不是Send 也不是Sync 有充分的理由,除非程序中的所有内容基本上都使用线程安全原语,否则我无法发送数据结构或对它的引用。
我想推断,在第 2 阶段开始后,我们不再需要引用计数;线程1(所有者)不允许触摸引用计数,线程2(借用者)不允许克隆数据,只看它,所以它也不能触摸引用计数。我知道Rc 不会提供这组保证,因为您可以克隆Rc 给定共享引用。这种模式有安全的 API 吗?理想情况下,从第 1 阶段到第 2 阶段时,我不必复制任何数据。
这是一个玩具实现,只是为了给它添加一些代码。函数phase1() 在返回T 类型的数据结构之前会生成大量垃圾,然后在另一个线程上以只读方式在phase2() 中对其进行分析。如果将此代码中的Arc 更改为Rc,则会出现错误,因为它无法跨线程发送。
use std::sync::Arc;
use crossbeam::thread::scope; // uses the crossbeam crate for scoped threads
enum T { Nil, More(Arc<T>) }
fn phase1() -> T {
let mut r = T::Nil;
for i in 0..=5000 {
r = T::Nil;
for _ in 0..i { r = T::More(Arc::new(r)) }
}
r
}
fn phase2(mut t: &T) {
let mut n = 0;
while let T::More(a) = t {
n += 1;
t = a;
}
println!("length = {}", n); // should return length = 5000
}
fn main() {
let r = phase1();
scope(|s| { s.spawn(|_| phase2(&r)); }).unwrap();
}
【问题讨论】:
-
为什么需要发送到另一个线程?从阅读本文后我可以看出,
phase1使用单个线程,然后它传递到phase2再次使用单个线程。在我看来,它可以完全留在一个线程中而没有任何问题。 -
这个例子过于简单了。实际上,线程 1 有其他事情要做,并且有多个线程 2 读取线程 1 的数据并将其与自己的工作相结合,在他们自己的阶段 1 版本中。示例的重点并不是证明架构的合理性以有效代码的形式勾勒出数据流。
-
你的
enum T是什么类型的数据结构?您的用例可能有一个现有的库。目前它看起来像某种形式的链表或树,所以我想知道是否可以用框替换引用计数器。 -
phase1实际上是垃圾收集脚本语言的解释器。实物的分享还是蛮多的,所以引用计数很重要。 (甚至还有少量的循环,现在我只是处理内存泄漏,因为我不知道基于Gc类型的现成竞技场。) -
我知道您正在寻找安全的解决方案,但如果没有;因为它只会在 phase1 之后被读取,所以你可以使用 unsafe 强制
Rc实现Sync,根据你的逻辑这应该可以正常工作:play.rust-lang.org/…
标签: multithreading rust reference-counting