【发布时间】:2014-09-05 01:44:37
【问题描述】:
我真的希望能够让 Beautiful Soup 匹配任何标签列表,就像这样。我知道 attr 接受正则表达式,但是在漂亮的汤中有什么东西可以让你这样做吗?
soup.findAll("(a|div)")
输出:
<a> ASDFS
<div> asdfasdf
<a> asdfsdf
我的目标是创建一个可以从网站抓取表格的抓取工具。有时标签的命名不一致,我希望能够输入标签列表来命名表的“数据”部分。
【问题讨论】:
-
可以使用标签列表:
soup.find_all(['a', 'div'])
标签: python regex web-scraping