【问题标题】:Multiplying uneven datasets乘以不均匀的数据集
【发布时间】:2018-11-12 15:49:52
【问题描述】:

我正在尝试将距离对数与不同国家/地区的关税率进行交互,但我的数据框架的维度略有不同。第一个数据框是

'data.frame':   265 obs. of  32 variables:

第二个数据框是

'data.frame':   263 obs. of  32 variables:

我一直无法找到它们的不同之处,但我的教授说在 STATA 中它们是在 R 中也应该找到的变通方法。你会使用什么变通方法?

【问题讨论】:

  • 一些行ID?然后你可以内连接表。如果您给我更多信息,我可以为您写一个合适的答案:)
  • 行 ID 相同,我在 1987-2017 年的 32 年中查看 264 个国家/地区。
  • 看起来您正在寻找anti_join?看看这个例子:stat545.com/bit001_dplyr-cheatsheet.html

标签: r dataframe linear-regression


【解决方案1】:

准备用于回归或其他地方的数据的标准方法是使用合并将所有数据放入同一个数据框中。您可以删除一个而不是另一个的行,或者将它们包含在较小的数据集中并在它们的位置中添加NA。在回归中,NA 的观察结果将被丢弃,因此您选择哪个都没有关系。

假设First 是您的数据框,包含 265 个观测值,Second 是您的数据框,包含 263 个数据。在这两个数据框中,您都有一个名为“Year”的列,您将使用它来匹配。确保此列中没有缺失值。

FinalData <- merge(First,Second,by="Year")

默认情况下,这将删除任一数据集中缺失的行。然后使用FinalData 作为lm() 的输入进行回归,您将不会有任何错误。

【讨论】:

    猜你喜欢
    • 2021-09-05
    • 1970-01-01
    • 1970-01-01
    • 2018-06-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-04
    相关资源
    最近更新 更多