【发布时间】:2014-11-13 16:48:55
【问题描述】:
尝试使用Beautiful Soup 4在html代码中查找某些标签。有这样一个标签:
<a href='obec.php?kod_obce=511226'>Ábelová</a>
在 html 中。
问题是,当我尝试使用re.compile 时,bs4 找不到这些标签。
下面是部分代码:
obce = soup.findAll("a", attrs={'href':re.compile("obec.php?kod_obce.*")})
什么也没找到。
你知道出了什么问题吗?
【问题讨论】:
-
您必须向我们提供一些示例数据。
-
那不是文本而是文本节点。它是
a元素的内容。 -
看,现在我们有了上下文;这不是标签内容的问题,而是您的正则表达式的问题。
-
附带说明,您应该将浏览器书签或 200K 磁盘空间的成本投入到一个好的正则表达式调试器上。例如,请参阅Debuggex。它会让你的生活更轻松。
标签: python regex beautifulsoup