【发布时间】:2020-05-24 20:11:10
【问题描述】:
我正在尝试操作满足某些条件的数据框。
有主数据框df1:
Title Artist Warner Sony Universal
Break My Heart Dua Lipa 0 0 0
Daisies Katy Perry 0 0 1
Nicotine Chef`Special 1 1 0
... 1 000 000+ rows
df2:
Label Title Artist Operation
Warner Nicotine Chef`Special 0
Sony Break my Heart Dua Lipa 1
... 100+ rows
Df1 包含一些错误。在这种情况下,尼古丁的 Warner 值为 1,而它应该为 0。我希望匹配两个数据帧中的 Title 和 Artist,然后根据 df2 将标签值更改为 1 或 0。
在这种情况下,它应该看到 Chef'Special 的尼古丁在 df1 和 df2 中,它应该将 df1$Warner 更改为 0。Dua Lipa 的 Break My Heart 应该使用相同的方法将 df1$Sony 设置为 1。
我一直在考虑如何解决这个问题,但我完全不知所措。
【问题讨论】:
-
如何确定哪个df的列值正确?
-
嗨,马特,df2 用于纠正 df1 中的错误。因此 df1 中的曲目可能会将 df1$Warner 设置为 1 而它应该是 0。 Df2 将包含一个条目,而 df2$Operation 包含它应该是的值。所以 df2 具有正确的列值。如果 df2 的结构如下所示会更容易:``` Title Artist Warner Sony Universal Nicotine Chef'Special 0 1 0 .... ``
标签: r