【发布时间】:2020-10-31 13:36:33
【问题描述】:
我有一个数据框:
ID message
1 request body: <?xml version="2.0",<code> dwfkjn34241
2 request body: <?xml version="2.0",<code> jnwg3425
3 request body: <?xml version="2.0", <PlatCode>, <code> qwefn2
4 received an error
5 <MarkCheckMSG>
6 received an error
我想根据常用词提取列中的值组。因此,消息列中的前三行可以视为同一组,尽管它们略有不同。第四和第六作为同一组的成员。我如何使用单词和结构相似性标准将这些值分组到列消息中?有什么好的方法呢?例如,给出了示例中的数据框。因此,我对适合问题思想的方法更感兴趣,而不是基于正则表达式的解决方案,例如
【问题讨论】:
标签: r dataframe group-by cluster-computing