【发布时间】:2015-08-28 12:33:36
【问题描述】:
我想从 BeautifulSoup 的内容中获取所有 data-js 属性值。
输入:
<p data-js="1, 2, 3">some text..</p><p data-js="5">some 1 text</p><p data-js="4"> some 2 text. </p>
输出:
['1, 2, 3', '5', '4']
我已经用 lxml 完成了:
>>> content = """<p data-js="1, 2, 3">some text..</p><p data-js="5">some 1 text</p><p data-js="4"> some 2 text. </p>"""
>>> import lxml.html as PARSER
>>> root = PARSER.fromstring(content)
>>> root.xpath("//*/@data-js")
['1, 2, 3', '5', '4']
我想要通过 BeautifulSoup 获得上述结果。
【问题讨论】:
标签: python html beautifulsoup html-parsing