【发布时间】:2019-09-12 02:27:00
【问题描述】:
我想将我的第一个数据集中的字符串与所有最接近的常见匹配项进行匹配。
数据如下:
数据集1:
California
Texas
Florida
New York
数据集2:
Californiia
callifoornia
T3xas
Te xas
texas
Fl0 rida
folrida
New york
new york
想要的结果是:
col_1 col_2 col_3 col4
California Californiia callifoornia
Texas T3xas texas Te xas
Florida folrida Fl0 rida
New York New york new york
问题是:
- 如何在第一个数据集和第一个数据集之间搜索公共字符串 第二个数据集,并生成第二个数据集中的术语列表 与第一个中的每个术语一致?
提前致谢。
【问题讨论】:
-
定义“最接近”。你的研究发现什么是相关的?你是如何在你的程序中提供它的?一旦你得到一个包含正确和模糊列的表格,你知道如何执行将多行转换为多列行的单独步骤吗?--你真的在这里问了 2 个问题。两者显然都可能是常见问题解答。在 SO 上发现了什么?你能做什么?
-
请参阅
stringdist包和data.table中的dcast。有一种方法可以在 R 中很好地做到这一点,但我现在没有时间编写代码。stringdist相对容易使用一些基本的 R 印章。
标签: r string join stringdist