【发布时间】:2016-04-21 23:45:53
【问题描述】:
假设我有一个包含以下单词的变量
ChicKen120
Chicken1.20
Chicken(1.20)
Cow
cow.
cow/
cat
- 如何找到仅相差一两个字符的相似词?
我意识到我可以做到
grep("chicken", df$words, ignore.case=T) 查找所有与 chicken 相似的单词,但是遍历每个单词会很繁琐,即先是 chicken,然后是 cow,然后是 cat..
有没有办法在整列中找到相似的词?
-
我想将相似的词转换为一种标准格式,
chicken(1.20) chicken(1.20) chicken(1.20) cow cow cow cat
【问题讨论】:
-
您还没有定义“相似”是什么,而且您的问题也没有简单的答案。如果存在,您将需要一个特殊的库。
-
使用
sub。sub("(?i).*(chicken\\(?1\\.?20\\)?|cow).*", '\\1', x) -
假设“相似”是指包含所有相同字母和数字([A-z] &[0-9])的单词,忽略符号(句号、括号、斜杠)。