【发布时间】:2017-08-28 03:01:31
【问题描述】:
我有两个字符串,我想找到所有常用词。例如,
s1 = 'Today is a good day, it is a good idea to have a walk.'
s2 = 'Yesterday was not a good day, but today is good, shall we have a walk?'
考虑 s1 匹配 s2
'Today is' 匹配 'today is' 但 'Today is a' 不匹配 s2 中的任何字符。因此,“今天是”是常见的连续字符之一。同样,我们有“美好的一天”、“是”、“美好的”、“散步”。所以常用词是
common = ['today is', 'a good day', 'is', 'a good', 'have a walk']
我们可以使用正则表达式来做到这一点吗?
非常感谢。
【问题讨论】:
-
您在寻找常用词或常用短语吗?您是否试图避免重复计算匹配,因为诸如“美好的一天”之类的短语可能会被分解为“美好”,然后再进行评估。
-
您的标准需要收紧:例如 s1 中的
Today,而昨天 s2 中的day有共同点