【发布时间】:2023-03-31 20:17:02
【问题描述】:
首先我想说我正在使用 tweepy。我找到了一种过滤掉相同字符串的方法,但我很难过滤掉类似的字符串。
我需要比较两个句子字符串(Tweepy 关键字 ="Donald Trump")
字符串 1:"Trump Administration Dismisses Surgeon General Vivek Murthy (http)PUGheO7BuT5LUEtHDcgm"
字符串 2:"Trump Administration Dismisses Surgeon General Vivek Murthy (http)avGqdhRVOO"
如您所见,它们相似但不相同。我需要找到一种方法来比较两者并获得一个数值来决定是否应该将第二条推文添加到第一条推文中。当我使用SequenceMatcher() 时,我以为我有解决方案,但它总是打印出0.0。我期待它大于0.5。然而,Sequence Matcher 似乎只适用于一个单词字符串(如果我错了,请纠正我)。
现在您可能在想,“只需拼接 http 部分”。这也行不通,因为它不考虑人们的推文名称,例如@cars:xyz zyx 和@trucks:xyz zyx
有什么方法可以比较这两个文本吗?它应该很简单,但由于某种原因,我无法解决这个问题。我一周前刚学了python。使用缩进来区分函数中的内容仍然感觉很奇怪。
【问题讨论】:
-
jellyfish 包中有大量工具。 (我不隶属于那个项目。)
标签: python string twitter comparison tweepy