【发布时间】:2013-01-19 23:55:22
【问题描述】:
我正在编写一些代码来处理大量数据,我认为让 Parallel.ForEach 为它创建的每个线程创建一个文件会很有用,这样输出就不需要同步(至少我)。
看起来像这样:
Parallel.ForEach(vals,
new ParallelOptions { MaxDegreeOfParallelism = 8 },
()=>GetWriter(), // returns a new BinaryWriter backed by a file with a guid name
(item, state, writer)=>
{
if(something)
{
state.Break();
return writer;
}
List<Result> results = new List<Result>();
foreach(var subItem in item.SubItems)
results.Add(ProcessItem(subItem));
if(results.Count > 0)
{
foreach(var result in results)
result.Write(writer);
}
return writer;
},
(writer)=>writer.Dispose());
我预计会创建多达 8 个文件,并且会在整个运行期间持续存在。然后,当整个 ForEach 调用完成时,每个都将被处置。真正发生的是 localInit 似乎为每个项目调用一次,所以我最终得到了数百个文件。编写器也会在处理的每个项目结束时进行处理。
这表明发生了同样的事情:
var vals = Enumerable.Range(0, 10000000).ToArray();
long sum = 0;
Parallel.ForEach(vals,
new ParallelOptions { MaxDegreeOfParallelism = 8 },
() => { Console.WriteLine("init " + Thread.CurrentThread.ManagedThreadId); return 0L; },
(i, state, common) =>
{
Thread.Sleep(10);
return common + i;
},
(common) => Interlocked.Add(ref sum, common));
我明白了:
init 10
init 14
init 11
init 13
init 12
init 14
init 11
init 12
init 13
init 11
... // hundreds of lines over < 30 seconds
init 14
init 11
init 18
init 17
init 10
init 11
init 14
init 11
init 14
init 11
init 18
注意:如果我省略了 Thread.Sleep 调用,它有时似乎“正常”运行。对于它决定在我的电脑上使用的 4 个线程,localInit 只被调用一次。然而,并非每次都如此。
这是函数的期望行为吗?导致它这样做的幕后发生了什么?最后,获得所需功能 ThreadLocal 的好方法是什么?
顺便说一下,这是在 .NET 4.5 上的。
【问题讨论】:
标签: c# .net task-parallel-library .net-4.5