【发布时间】:2017-02-19 23:12:40
【问题描述】:
我有一个要应用于数据的数据框和预测模型。但是,我想过滤掉模型可能不太适用的记录。为此,我有另一个数据框,其中包含每个变量在训练数据中观察到的最小值和最大值。我想从我的新数据中删除那些有一个或多个值超出指定范围的记录。
为了让我的问题更清楚,我的数据可能如下所示:
id x y
---- ---- ---------
1 2 30521
2 -1 1835
3 5 25939
4 4 1000000
这是我的第二张表,包含最小值和最大值:
var min max
----- ----- -------
x 1 5
y 0 99999
在本例中,我想在我的数据中标记以下记录:2(低于 x 的最小值)和 4(高于 y 的最大值)。
我怎样才能在 R 中轻松做到这一点?我有一种预感,有一些聪明的 dplyr 代码可以完成这项任务,但我不知道它会是什么样子。
【问题讨论】: