【发布时间】:2021-02-06 20:30:50
【问题描述】:
我正在使用 R 中的 tidyverse 包来匹配两个数据框的城市名称。虽然我的大部分观察结果都匹配,但由于名称略有不同(例如“Sao Joao Del-Rey”和“Sao Joao Del Rey”),其余观察结果不匹配。有没有办法可以在 left_join 函数(或其他函数)中指定这些自治市,以便也匹配它们? 作为一个例子,我做了一个可重复的例子,其中“里约热内卢”和“巴黎”的城市在第二个数据帧中略有不同。假设我有一个匹配列表 L = ["Rio de Janeiro" = "Rio de-Janeiro", "Paris" = "Pariss"),我如何告诉 R 也匹配这些单元格?提前致谢。
library(tidyverse)
df1 <- data.frame(municipalities = c('New York', 'London', 'Shangai', 'Rio de Janeiro', 'Paris'),
crimes = c(5, 7, 8, 4, 6))
df2 <- data.frame(municipalities = c('New York', 'London', 'Shangai', 'Rio de-Janeiro', 'Pariss'),
GDP = c(45, 56, 67, 78, 89))
df3 <- df1 %>% left_join (df2, by = 'municipalities')
``` R
【问题讨论】: