【发布时间】:2016-12-20 13:38:15
【问题描述】:
我有一个带有文本的数据框
TERM
good morning
hello
morning good
you're welcome
hello
hi
我想过滤掉所有重复的单词以及所有单词相同但顺序不同的单词。这样我得到:
TERM
good morning
hello
you're welcome
hi
我知道如何用 stringdist 获取两个单词的距离。
stringdist(stringOriginal,stringCompare,method=qgram)
但由于我的数据帧很长,我不想遍历所有条目。
如何过滤掉相似的词条?
谢谢 约尔格
【问题讨论】:
-
您可以使用
strsplit和集合函数union和intersect或setdiff设计一个蛮力方法。 -
修改问题以包含您开始使用的数据框类型的小示例以及所需的输出会很有用。
-
使用
stringdist你可以这样做:library(stringdist); sdm <- stringdistmatrix(DF$TERM, DF$TERM, method = "qgram", useNames = "strings"); sdm[!duplicated(sdm),]
标签: r dataframe stringdist