【发布时间】:2017-07-23 22:59:16
【问题描述】:
我正在使用 Scrapy 来抓取 XML 文件。 Scrapy 让您可以选择通过任何节点名称进行报废,例如 <listing>:
<listing>
<img>1.jpg</img>
</listing>
<listing>
<img>1.jpg</img>
<img>2.jpg</img>
</listing>
<listing>
<img>1.jpg</img>
<img>2.jpg</img>
</listing>
这是我的蜘蛛:
from scrapy.spiders import XMLFeedSpider
class spider(XMLFeedSpider):
name='spider'
start_urls=['http://www.expample.com/xml.xml']
itertag='listing'
def parse_node(self,response,node):
self.logger.info('Hi, this is a <%s> node!: %s', self.itertag, ''.join(node.extract()))
我可以使用当前在“listing”中的“itertag”设置来定义节点。我想遍历每个<listing>,然后遍历每个<img> 的每个<listing>。如何解析子节点(子节点)?
【问题讨论】:
标签: python xml xml-parsing scrapy scrapy-spider