【问题标题】:Looking for advice on creating Tidy data from the start寻求从一开始就创建 Tidy 数据的建议
【发布时间】:2019-09-18 22:43:00
【问题描述】:

我有一个会不断增长的数据集。它是按日期和小时进行的分类观察(即 1=yes,2=no)。以下是导入到 R 的可接受的格式化方法还是有更好的方法?

【问题讨论】:

  • 这里的两个观察代表什么?它们是看不到鱼的船只数量还是看到鱼的船只数量,还是每小时可能超过两排?
  • 不是,是数据中是否观察到船只,数据中是否观察到鱼。每个都是二元的(无论是否看到容器)。
  • 这可能是一个完全可以接受的方法。 “整洁”的数据应该每行有一个观察值,每列有一个变量。如果这里的数据显示两个观察结果,一个检测船只和鱼,一个只检测船只,那么这似乎是合适的。 vita.had.co.nz/papers/tidy-data.pdf
  • 我会将月、日、年和小时设为单个日期/时间列。如果工作量太大,如果可以假设每个日期正好有 24 小时,您可以让 R 代码稍后添加。
  • @G.Grothendieck 是的,当您每天有 24 小时工作时。每月 30 天,一次处理 4 个月,构建电子表格非常耗时。

标签: r csv tidyverse


【解决方案1】:

我会使用这样的模板:

使用一列作为日期可以更轻松地读取/导入 R。此外,YYYY-MM-DD 是 R 中日期列的默认格式。尝试将日期和时间一起写在一列中是可行的,但似乎很乏味,而且不太容易查看数据中发生的情况。正如上面的 cmets 中提到的,每个观察值都应该在单独的行上。将数据保存为 csv 后,即可轻松将其导入 R。 祝你好运。

【讨论】:

  • 这是否容易在 R 中按月分析?
  • 是的。在 R 中,很容易使用带有年月的导入数据创建一个新列(使用 format(Date, "%Y-%m") 函数)。然后您可以按月进行几乎任何类型的分析。
  • 实际上,如果您使用 Excel 创建它,那么如果您创建两个日期时间,然后选择它们并将其向下拖动,它将为您完成常规序列,因此在 Excel 中看起来就像在 R 中。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2019-11-18
  • 2011-09-11
  • 1970-01-01
  • 2021-10-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多