【发布时间】:2017-04-27 12:51:18
【问题描述】:
文档如下所示:
<div class="eh">...</div>
...
<section class="g">...</section> <!-- div 1 -->
...
<section class="g">...</section> <!-- div 1 -->
...
<div class="eh">...</div>
...
<section class="g">...</section> <!-- div 2 -->
...
所有这些标签都在同一个树级别。我需要将文档分成多个 div 的组,并将部分附加到相应的 div。
预期的结果是一个类似[div1, section1, section2, div2, section3] 的列表。它们按照它们在 HTML 中出现的顺序出现。
我当前的代码:
bs.find_all(
['div', 'section'],
{'class': ['eh', 'g']})
如果 div 和 section 具有不同的类,则此方法有效。
【问题讨论】:
-
到目前为止你尝试了什么?
标签: python parsing beautifulsoup