【发布时间】:2012-10-08 00:33:29
【问题描述】:
我正在寻找一些天才的 SQL 帮助来解决我遇到的一个棘手的统计问题。
我要做的是从一组不平衡的用户配置文件中提取一个统计上平衡的样本。一次对单个配置文件属性(例如性别)执行此操作会有些简单。但是一次跨多个维度进行操作需要一些复杂性。
为了争论,假设我有这张桌子。
Profile.userID
Profile.Gender
Profile.Age
Profile.Income
如果我想从组合中提取一个配置文件池,以便新的用户样本大致符合以下所有特征:
50% male, 50% female
30% young, 40% middle age, 40% old
40% low income, 40% middle income, 20% high income
有人对如何实现这一目标有任何想法吗?
【问题讨论】:
-
是什么阻止了您一次随机抽取一个记录,直到样本集满足您的要求?
-
如何防止它不断失去平衡?假设我只需要一张女性唱片,但拉动那张唱片会使我的年龄和收入失衡......?
-
30% 年轻人,40% 中年人,40% 老年人!= 100% 在您的范围内,年轻人和中年人之间是否存在重叠?
-
对不起 - 这只是我在示例中的糟糕数学。它应该是 30,40,30
标签: sql sql-server statistics