【发布时间】:2014-10-04 17:04:44
【问题描述】:
我需要从 html 页面获取并解析 div 数组。我是这样写的:
def parse_public(self, response):
hxs = Selector(response)
posts = hxs.xpath("//*div[matches(@id, 'wall-28701979_\d{5}')")
# or something like this
# posts = hxs.findall("//div[starts-with(@id,'wall-28701979_')")
print posts
完整的 xpath 是://*[@id="wall-28701979_XXXXX"]/div[2]/div[1]/text() 其中 XXXXX - 随机 5 位数字。所以我需要从页面中获取所有这样的元素。但我得到了一个 exceptions.ValueError: Invalid XPath: 。我该如何解决?谢谢
【问题讨论】:
-
您可能想要提供您尝试解析的标记的示例
标签: python regex xpath web-scraping scrapy