【发布时间】:2020-04-04 05:04:06
【问题描述】:
我有两个数据集,都有犬种名称。我想以某种方式组合数据集,但是很多狗有多个名字,例如非洲无毛犬也被称为非洲阿比西尼亚梗。
我认为这些名称的差异太大,无法通过它们的单词相似性来匹配,所以我想知道匹配它们的最佳方法是什么。
例如,假设数据集 1 是
Breed Height (inches)
------------------------------------------------
Golden Retriever 20
Labrador Retriever 22
African Hairless Dog 17
数据集2是
Breed Weight (pounds)
------------------------------------------------
African Abyssinian Terrier 30
Golden Retriever 60
Labrador Retriever 65
我想要一个如下所示的数据集:
Breed Height (inches) Weight (pounds)
-------------------------------------------------------------------------
African Hairless Dog 17 30
Golden Retriever 20 60
Labrador Retriever 22 65
【问题讨论】:
标签: r dataframe join merge data-cleaning