【发布时间】:2019-04-15 23:15:36
【问题描述】:
我正在做一个抓取项目,出于某种原因,在某些段落中,我得到了完整的段落和同一段落的分段。所以,如果段落是“我的房子是绿色的,我喜欢它。”,我有时会得到:
["My house is green. I like it.", "My house is green.", "I like it."]
因此,当我将所有内容都转换为文本时,我会复制该段落。有什么方法可以检查哪些字符串是列表中其他字符串的子集?
在这种情况下,我想要的输出将只留下["My house is green. I like it."]
【问题讨论】:
-
您是否有机会在抓取时只获取您想要保留的初始段落而不抓取其余部分? (而不是试图亲处理它?)
-
为什么不能简单地使用该列表中的第一个元素?
-
我也在想办法做到这一点。也许是因为我刮掉了所有后代我遇到了这个问题。
-
如果你拿起一个只包含
e的奇怪字符串会发生什么 - 这将是很多事情的子集等等...... -
@Selcuk 这是几个段落的列表,并不总是重复自己