【发布时间】:2017-08-05 04:45:51
【问题描述】:
我正在创建一个决策树模型,并使用数据集对其进行训练。
但是,此数据集中的某些列是 TimeStamps 或 Date。我一直在浏览 Apache 的文档,但无法找到一种方法来解析或将此值添加到我的 features 列中。
知道我该怎么做吗?
【问题讨论】:
-
通常没有必要将这些字段用于分类器。你确定你在这些领域有有用的功能吗?
-
是的。通常最终用户会在我的程序运行时放置哪些列来查找异常。一种可能的情况是,如果列中的日期超过某个阈值,则该值应被视为错误,我的决策树需要查看并理解该值错误的原因,这就是我需要包含日期的原因在我的特征向量中
-
@user8371915 这不是重复的,因为没有人回答这个问题。该答案未被接受,并且发布的解决方案仅适用于 Scala,而不适用于 Python。
-
只需将您的日期时间转换为 unix 时间戳!你试过吗?
标签: apache-spark apache-spark-mllib apache-spark-ml