【发布时间】:2013-10-07 12:27:48
【问题描述】:
我正在抓取一个 atom 提要 (xml)。其中一个标签说:
<content type="html">
<p> Some text and stuff </p>
</content>
我还看到 img 和 a 标签的相同 html 实体。 是否有一个通用的 xpath 可以像这样找到 img 标签或 p 标签:
//content/p or //content/img/@src
但显然这不适用于这些 html 实体。或者也许是其他的scrapy解决方案?
【问题讨论】: