【发布时间】:2012-11-07 19:45:38
【问题描述】:
我正在寻找一种方法来清除最长重复模式中的字符串。
我有一个大约 1000 个网页标题的列表,它们都有一个共同的后缀,即网站名称。
他们遵循这种模式:
['art gallery - museum and visits | expand knowledge',
'lasergame - entertainment | expand knowledge',
'coffee shop - confort and food | expand knowledge',
...
]
如何自动从它们的公共后缀" | expand knowledge"
中去除所有字符串?
谢谢!
编辑:抱歉,我说得不够清楚。
我事先没有关于" | expand knowledge" 后缀的信息。
我希望能够清除潜在公共后缀的字符串列表,即使我不知道它是什么。
【问题讨论】:
-
您能稍微扩展一下您的要求吗?现在看起来好像你在要求一些需要一些疯狂的计算时间的东西。
-
@SamIam 我正在开发一个爬虫,需要对目标网站的 HTML 结构有最少的了解。我正在从
HTML 标记中抓取页面的标题。这个网站的所有页面都包含一个共同的模式(``|扩展知识``),我非常想摆脱它,以避免任何冗余。主要问题是我事先没有关于后缀的信息,因为爬虫会在多个网站上发布。