【发布时间】:2015-12-09 07:03:57
【问题描述】:
我不确定我的问题是否有意义。但是,我正在考虑使用时间序列数据修改计量经济学模型。这是一个多元回归。自变量之一是 5 年期国债利率。该变量分为两个时间段。一个变量是从 1950 年到 1986 年的 5 年期国债利率。1986 年之后,这个变量取值为 0。第二个变量是从 1986 年至今的 5 年期国债利率。在 1986 年之前,第二个变量的值为 0。有人建议我将 0 值替换为空白(相当于缺失数据)。因为正如建议的那样,这些变量的含义应该会更好地指定。你能用子集()函数做到这一点。换句话说,您是否可以在不实际删除或忽略整行数据的情况下从这些变量中删除或忽略 0 值,并从其他自变量中删除所有值。我知道这个编码问题取决于这个过程是否有意义。我不确定它确实如此。我已经通过了交叉验证的理论问题。但是,我不确定我会得到任何答案。我想我会继续在这里问编码问题。
【问题讨论】:
-
您的数据在
data.frame中吗? -
ssdecontrol,是的,是的。
-
您想将 1950-1986 年和 1986 年至今视为不同的时期吗?如果是这种情况,您可以创建一个具有两个值的虚拟分类变量,例如“pre”(适用于 1986 年之前的所有行)和“post”(适用于 1986 年之后的所有行),然后将其包含在回归中.
标签: r linear-regression missing-data dummy-variable