【发布时间】:2016-03-18 20:10:55
【问题描述】:
假设我有 10.000 个预订客户资料。 这些配置文件具有以下变量:
- 持续时间(放假天数)
- 目的地(可能是巴西)
- People_amount(有多少人)
- 起飞(他们想离开的日期)
我想通过预订引擎将其中的 1.000 个(10%)传递给定价,但为了开发独立的洞察分析,我必须(尽可能)平均分配配置文件的特征。例如。如果所有配置文件都有 3 种 People_amount(1、2 和 3),最终我希望在 People_amount = 1 的 33.33% 的 10% 内进行选择,在 People_amount = 2 和 33 的 33.33% 中进行选择,33%,People_amount = 3。
但是……
因为配置文件集不是均匀分布的(例如,所有配置文件的 70% 由 People_amount = 1 组成)我无法弄清楚如何找到/创建一种填满的循环(或其他东西)该特征内的所有品种的 SELECT 直到 1 用完并与其余部分一起进一步。
也许是一个示例,说明我想如何填写我的 10k 个人资料中的 10% 样本:
Profile_id People_amount Profile_id People_amount 1 1 1 1 2 1 5 2 3 1 8 3 4 1 --> Filling the sample by even distribution 2 1 5 2 of available profile characteristics 6 2 6 2 9 3 7 2 3 1 8 3 7 2 9 3 4 1
希望你能帮忙!
【问题讨论】:
标签: mysql select distribution sample