【发布时间】:2015-09-17 04:40:11
【问题描述】:
所以现在我总是有架构:
<h2 class="dot">headline 1</h2>
<p>text</p>
<h2 class="dot">headline 2</h2>
<p>text</p>
但我抓取的某些网站可能具有以下架构:
<h2 class="dot">headline 1</h2>
<p>text</p>
<p>text</p>
<h2 class="dot">headline 2</h2>
<p>text</p>
我是这样爬的:
for product in soup.findAll("p"):
我没有办法确定不同的 p 元素是否属于一起。有人知道我如何确定一个或两个 p 属于同一个逻辑单元吗?
一种可能的方法是确定前一个 html 元素是 p 还是 h2。有什么好办法查出来吗?
【问题讨论】:
-
所有元素都属于同一个父元素吗?我假设您要说的是要将其拆分为每个
元素正下方的所有
元素的组。
-
是的,这将是一个解决方案。我该怎么做?
标签: python beautifulsoup web-crawler