【问题标题】:How to include Date / Timestamp into my features如何在我的功能中包含日期/时间戳
【发布时间】:2017-08-05 04:45:51
【问题描述】:

我正在创建一个决策树模型,并使用数据集对其进行训练。

但是,此数据集中的某些列是 TimeStampsDate。我一直在浏览 Apache 的文档,但无法找到一种方法来解析或将此值添加到我的 features 列中。

知道我该怎么做吗?

【问题讨论】:

  • 通常没有必要将这些字段用于分类器。你确定你在这些领域有有用的功能吗?
  • 是的。通常最终用户会在我的程序运行时放置哪些列来查找异常。一种可能的情况是,如果列中的日期超过某个阈值,则该值应被视为错误,我的决策树需要查看并理解该值错误的原因,这就是我需要包含日期的原因在我的特征向量中
  • @user8371915 这不是重复的,因为没有人回答这个问题。该答案未被接受,并且发布的解决方案仅适用于 Scala,而不适用于 Python。
  • 只需将您的日期时间转换为 unix 时间戳!你试过吗?

标签: apache-spark apache-spark-mllib apache-spark-ml


【解决方案1】:

基本上,您需要将它们转换为特征。一种方法是使用诸如年、月、周甚至周末、小时之类的内容创建虚拟变量。这取决于您要为您的问题创建哪些功能。

【讨论】:

  • 这可能有效,但需要大量处理,特别是因为时间戳也有小时、分钟和秒。我想过将时间戳转换为整数,但我知道这有多合理
  • 是的,这就是为什么它取决于您的具体问题,如果您只关心一天中的小时数,那么您可以从时间戳中提取小时数并创建 24 个虚拟变量,其中包含所有小时数。使用日期,您还可以创建几个功能,周末/非周末,星期几(1-7),月份(1-12)等。现在,如果您的问题需要时间的分钟和秒的详细信息,您可以例如,还可以将一天中的时间转换为从 0 小时开始计算秒数的整数,这可能会有所帮助。
猜你喜欢
  • 1970-01-01
  • 2018-12-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-12-13
  • 2015-12-11
  • 1970-01-01
  • 2016-03-03
相关资源
最近更新 更多