【发布时间】:2010-12-11 17:14:25
【问题描述】:
请建议一种最简单的方法,以从具有“N”个项目的集合中获取计数“n”个随机打乱的集合。其中 n
【问题讨论】:
标签: c# linq ienumerable observablecollection
请建议一种最简单的方法,以从具有“N”个项目的集合中获取计数“n”个随机打乱的集合。其中 n
【问题讨论】:
标签: c# linq ienumerable observablecollection
除了 mquander 的回答和 Dan Blanchard 的评论,这里有一个 LINQ 友好的扩展方法,它执行 Fisher-Yates-Durstenfeld shuffle:
// take n random items from yourCollection
var randomItems = yourCollection.Shuffle().Take(n);
// ...
public static class EnumerableExtensions
{
public static IEnumerable<T> Shuffle<T>(this IEnumerable<T> source)
{
return source.Shuffle(new Random());
}
public static IEnumerable<T> Shuffle<T>(this IEnumerable<T> source, Random rng)
{
if (source == null) throw new ArgumentNullException("source");
if (rng == null) throw new ArgumentNullException("rng");
return source.ShuffleIterator(rng);
}
private static IEnumerable<T> ShuffleIterator<T>(
this IEnumerable<T> source, Random rng)
{
var buffer = source.ToList();
for (int i = 0; i < buffer.Count; i++)
{
int j = rng.Next(i, buffer.Count);
yield return buffer[j];
buffer[j] = buffer[i];
}
}
}
【讨论】:
seq.Shuffle().ElementAt(n),那么您每次都会重新洗牌,因此您很可能会在位置n 获得不同的项目。如果您想洗牌一次,那么您需要将序列存储在某种具体的集合中:例如,var list = seq.Shuffle().ToList()。然后,您可以随心所欲地使用list.ElementAt(n)——或者只是list[n]——你总是会得到相同的东西。
Shuffle 方法返回一个惰性IEnumerable<T>,每次您在string.Join 或ElementAt 调用中使用它时都会重新评估它。这就是IEnumerable<T> 的本质;如果您想要具体集合的行为,那么您实际上应该通过在Shuffle 调用的结果上调用ToArray 或ToList 创建一个具体集合。
另一种选择是使用 OrderBy 并按 GUID 值排序,您可以这样做:
var result = sequence.OrderBy(elem => Guid.NewGuid());
我做了一些实证测试来说服自己,上面的内容实际上生成了一个随机分布(它似乎确实如此)。你可以在Techniques for Randomly Reordering an Array看到我的结果。
【讨论】:
这有一些“随机偏差”的问题,我确信它不是最优的,这是另一种可能性:
var r = new Random();
l.OrderBy(x => r.NextDouble()).Take(n);
【讨论】:
Random 本身的任何微不足道的偏差之外,它没有任何随机偏差。它也非常有效。
Shuffle 将集合按随机顺序排列,并从结果中取出第一个 n 项。
【讨论】:
不那么随机,但高效:
var rnd = new Random();
var toSkip = list.Count()-n;
if (toSkip > 0)
toSkip = rnd.Next(toSkip);
else
toSkip=0;
var randomlySelectedSequence = list.Skip(toSkip).Take(n);
【讨论】:
我写了这个覆盖方法:
public static IEnumerable<T> Randomize<T>(this IEnumerable<T> items) where T : class
{
int max = items.Count();
var secuencia = Enumerable.Range(1, max).OrderBy(n => n * n * (new Random()).Next());
return ListOrder<T>(items, secuencia.ToArray());
}
private static IEnumerable<T> ListOrder<T>(IEnumerable<T> items, int[] secuencia) where T : class
{
List<T> newList = new List<T>();
int count = 0;
foreach (var seed in count > 0 ? secuencia.Skip(1) : secuencia.Skip(0))
{
newList.Add(items.ElementAt(seed - 1));
count++;
}
return newList.AsEnumerable<T>();
}
然后,我有我的源列表(所有项目)
var listSource = p.Session.QueryOver<Listado>(() => pl)
.Where(...);
最后,我调用“Randomize”,我得到了一个随机的子集合,在我的例子中是 5 个:
var SubCollection = Randomize(listSource.List()).Take(5).ToList();
【讨论】:
newList 是在浪费内存。也许考虑在foreach 语句中使用yield return。
Enumerable.Range(1, max).OrderBy(n => n * n * (new Random()).Next()) 这行很糟糕——它根本不是随机的。在大多数情况下,像这样调用 new Random()).Next() 只会返回相同的数字,而 n * n 会使数字有偏差 - 并且可能会导致溢出异常。
抱歉,代码很丑 :-),但是
var result =yourCollection.OrderBy(p => (p.GetHashCode().ToString() + Guid.NewGuid().ToString()).GetHashCode()).Take(n);
【讨论】:
p.GetHashCode().ToString() + Guid.NewGuid().ToString()).GetHashCode() 不是随机的。它可能看起来很随机,但事实并非如此。您应该使用 RNG 来实现随机性 - 数据科学家专门将它们设计为尽可能随机。