【发布时间】:2019-03-02 04:02:15
【问题描述】:
我知道标题有点含糊。请阅读更多详细信息。
输入
我有已知数量的可变长度集合(如 10000 个),每个集合都是英文字母表的一个子集。它看起来像这样:
a = ['a', 'b', 'c', 'a']
b = ['c', 'd', 'a', 'b']
c = ['x', 'y', 'z']
....
unique_value = set((*a, *b, *c, ...))
# {'a', 'b', 'c', 'd', 'e', 'f', ..., 'u', 'v', 'w', 'x', 'y', 'z'}
我需要什么
我需要从10000个以上的集合中选择一个固定数量的集合(比如100个),其中这个子集包含所有英文字符,并且每个字符的计数尽可能balance。 balance 表示字符分布均匀。我知道很难选择完全均匀的分布,因此定义 balance criteria 也很重要。
我的问题
- 如何从原始集合中选择子集(具有上述属性)
- 平衡标准的定义
请建议我实现这一目标的方法。任何建议将不胜感激。
提前致谢!
【问题讨论】: