rapidminer 格式化具有许多参数的数据集答案

【问题标题】：rapid-miner formating datsets with many parameterrapidminer 格式化具有许多参数的数据集
【发布时间】：2013-07-25 17:56:59
【问题描述】：

参数过多而无法作为列放入示例集中的问题。

我的问题任务是我的客户有一个唯一的 ID，他们有参数（二项式），我想预测某些目标变量的值，到目前为止只有一个，但可能是多个。在我的测试用例中，我使用了以下输入数据集，查看元数据，每个客户都表示在一行中，参数在列中 - 只是通常的方式。

元数据：
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项式
常规 - Para1 - 二项式
常规 - Para2 - 二项式
常规 - Para3 - 二项式
常规 - Para4 - 二项式
数据集：
*Customer_Id - 目标 - 第 1 段 - 第 2 段 - 第 3 段 - 第 4 段*
1 - M - 1 - 0 - 1 - 0
2 - V - 1 - 0 - 0 - 1
3 - M - 0 - 1 - 1 - 1

=> 使用朴素贝叶斯，我在有限维度的测试用例中获得了很好的预测结果。

实际数据集的问题：我有大约 100,000 个参数，而且这个数字正在增长很多。客户的实际活动参数数量非常少，因此表会非常大且稀疏。所以我的想法是使用以下数据集格式作为输入：
元数据：
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项式
正则 - ActivePara - 多项式
数据：
*Customer_Id - 目标 - ActivePara*
1 - M - 第 1 段
1 - M - 第 3 段
2 - V - 第 1 段
2 - V - 第 4 段
3 - M - Para2
3 - M - Para3
3 - M - 第 4 段

但是现在我没有得到每个客户的一致预测，我得到的是这样的

*Customer_Id - 目标 - ActivePara - 目标预测
1 - M - Para1 - V
1 - M - Para3 - M
2 - V - Para1 - V
2 - V - Para4 - V
3 - M - Para2 - M
3 - M - Para3 - M
3 - M - Para4 - V

但我希望/需要每个 customer_id 的目标预测保持一致。

我需要如何设置输入数据/模型才能得到结果！

非常感谢任何提示和帮助！！！

【问题讨论】：

标签： classification modeling prediction rapidminer

【解决方案1】：

这是由于问题过于简单化了。您已将多个属性转换为一个多名义属性，因此对于朴素贝叶斯来说，它是一个可以采用多个值的单个属性，它不能考虑活动参数的共现。

我会建议一个更好的选项来管理您的模型。最适合您的结构是

*Customer_Id - 目标 - 第 1 段 - 第 2 段 - 第 3 段 - 第 4 段* 1 - M - 1 - 0 - 1 - 0

将其更改为 *Customer_Id - Target - (number = 所有参数二进制表示的十进制值)

如果你有 3 个参数 p1 p2 p3 1 1 0

那么110（二进制）的十进制值为6。

这应该会有所帮助

【讨论】：

谢谢 - 我想我明白你的意思了。但是这样我就失去了深入分析某些参数的能力。如果我将所有参数结合起来，我以后就无法确定其中哪一个参数确实对目标变量产生了重大影响。或者？因为该算法仅适用于它们的组合。现在，当我使用决策树而不是朴素贝叶斯时，我真的可以看到哪个参数是有区别的。
是的..总有一些权衡..如果您有数千个参数并且您的模型没有缩放，那么这种方法将帮助您缩放或其他选项是使用有限的功能集，给RapidMiner 的特征选择扩展一试