【问题标题】:rapid-miner formating datsets with many parameterrapidminer 格式化具有许多参数的数据集
【发布时间】:2013-07-25 17:56:59
【问题描述】:

参数过多而无法作为列放入示例集中的问题。

我的问题任务是我的客户有一个唯一的 ID,他们有参数(二项式),我想预测某些目标变量的值,到目前为止只有一个,但可能是多个。 在我的测试用例中,我使用了以下输入数据集,查看元数据,每个客户都表示在一行中,参数在列中 - 只是通常的方式。

元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项式
常规 - Para1 - 二项式
常规 - Para2 - 二项式
常规 - Para3 - 二项式
常规 - Para4 - 二项式
数据集:
*Customer_Id - 目标 - 第 1 段 - 第 2 段 - 第 3 段 - 第 4 段*
1 - M - 1 - 0 - 1 - 0
2 - V - 1 - 0 - 0 - 1
3 - M - 0 - 1 - 1 - 1

=> 使用朴素贝叶斯,我在有限维度的测试用例中获得了很好的预测结果。

实际数据集的问题: 我有大约 100,000 个参数,而且这个数字正在增长很多。客户的实际活动参数数量非常少,因此表会非常大且稀疏。所以我的想法是使用以下数据集格式作为输入:
元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项式
正则 - ActivePara - 多项式
数据:
*Customer_Id - 目标 - ActivePara*
1 - M - 第 1 段
1 - M - 第 3 段
2 - V - 第 1 段
2 - V - 第 4 段
3 - M - Para2
3 - M - Para3
3 - M - 第 4 段

但是现在我没有得到每个客户的一致预测,我得到的是这样的

*Customer_Id - 目标 - ActivePara - 目标预测
1 - M - Para1 - V
1 - M - Para3 - M
2 - V - Para1 - V
2 - V - Para4 - V
3 - M - Para2 - M
3 - M - Para3 - M
3 - M - Para4 - V

但我希望/需要每个 customer_id 的目标预测保持一致。

我需要如何设置输入数据/模型才能得到结果!

非常感谢任何提示和帮助!!!

【问题讨论】:

    标签: classification modeling prediction rapidminer


    【解决方案1】:

    这是由于问题过于简单化了。您已将多个属性转换为一个多名义属性,因此对于朴素贝叶斯来说,它是一个可以采用多个值的单个属性,它不能考虑活动参数的共现。

    我会建议一个更好的选项来管理您的模型。最适合您的结构是

    *Customer_Id - 目标 - 第 1 段 - 第 2 段 - 第 3 段 - 第 4 段* 1 - M - 1 - 0 - 1 - 0

    将其更改为 *Customer_Id - Target - (number = 所有参数二进制表示的十进制值)

    如果你有 3 个参数 p1 p2 p3 1 1 0

    那么110(二进制)的十进制值为6。

    这应该会有所帮助

    【讨论】:

    • 谢谢 - 我想我明白你的意思了。但是这样我就失去了深入分析某些参数的能力。如果我将所有参数结合起来,我以后就无法确定其中哪一个参数确实对目标变量产生了重大影响。或者?因为该算法仅适用于它们的组合。现在,当我使用决策树而不是朴素贝叶斯时,我真的可以看到哪个参数是有区别的。
    • 是的..总有一些权衡..如果您有数千个参数并且您的模型没有缩放,那么这种方法将帮助您缩放或其他选项是使用有限的功能集,给RapidMiner 的特征选择扩展一试
    猜你喜欢
    • 2021-04-01
    • 2018-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-01-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多