【发布时间】:2018-03-01 21:36:01
【问题描述】:
当我们允许 h2o 通过将列转换为 enum 类型来自动创建分类数据时,有没有办法查看分类特征是如何编码的?
我正在实施保持堆栈,其中每个模型的基础训练数据都不同。我有一个共同的特征,我想确保在两组中以相同的方式编码。该功能包含名称 (str)。保证出现在一个数据集中的所有名称都会出现在另一个数据集中。
【问题讨论】:
标签: python h2o categorical-data
当我们允许 h2o 通过将列转换为 enum 类型来自动创建分类数据时,有没有办法查看分类特征是如何编码的?
我正在实施保持堆栈,其中每个模型的基础训练数据都不同。我有一个共同的特征,我想确保在两组中以相同的方式编码。该功能包含名称 (str)。保证出现在一个数据集中的所有名称都会出现在另一个数据集中。
【问题讨论】:
标签: python h2o categorical-data
查看模型内部的最佳方法是导出 pojo,然后查看 java 源代码。你应该看看它是如何处理枚举的。
但是,如果我正确理解了您的其余问题,那应该没问题。只要训练数据包含一个类别的所有可能值,它就会按您的预期工作。如果在生产中出现了在训练中没有看到的分类值,它将被视为 NA。
【讨论】: