【发布时间】:2013-07-25 17:56:59
【问题描述】:
参数过多而无法作为列放入示例集中的问题。
我的问题任务是我的客户有一个唯一的 ID,他们有参数(二项式),我想预测某些目标变量的值,到目前为止只有一个,但可能是多个。 在我的测试用例中,我使用了以下输入数据集,查看元数据,每个客户都表示在一行中,参数在列中 - 只是通常的方式。
元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项式
常规 - Para1 - 二项式
常规 - Para2 - 二项式
常规 - Para3 - 二项式
常规 - Para4 - 二项式
数据集:
*Customer_Id - 目标 - 第 1 段 - 第 2 段 - 第 3 段 - 第 4 段*
1 - M - 1 - 0 - 1 - 0
2 - V - 1 - 0 - 0 - 1
3 - M - 0 - 1 - 1 - 1
=> 使用朴素贝叶斯,我在有限维度的测试用例中获得了很好的预测结果。
实际数据集的问题:
我有大约 100,000 个参数,而且这个数字正在增长很多。客户的实际活动参数数量非常少,因此表会非常大且稀疏。所以我的想法是使用以下数据集格式作为输入:
元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项式
正则 - ActivePara - 多项式
数据:
*Customer_Id - 目标 - ActivePara*
1 - M - 第 1 段
1 - M - 第 3 段
2 - V - 第 1 段
2 - V - 第 4 段
3 - M - Para2
3 - M - Para3
3 - M - 第 4 段
但是现在我没有得到每个客户的一致预测,我得到的是这样的
*Customer_Id - 目标 - ActivePara - 目标预测
1 - M - Para1 - V
1 - M - Para3 - M
2 - V - Para1 - V
2 - V - Para4 - V
3 - M - Para2 - M
3 - M - Para3 - M
3 - M - Para4 - V
但我希望/需要每个 customer_id 的目标预测保持一致。
我需要如何设置输入数据/模型才能得到结果!
非常感谢任何提示和帮助!!!
【问题讨论】:
标签: classification modeling prediction rapidminer