【发布时间】:2015-03-20 06:00:15
【问题描述】:
我可以使用 Portia 网络爬虫对网页进行注释,我的问题是如何在提取数据时使用正则表达式。
例如,
我已从页面中提取位置文件
输出看起来像,
位置:位置 xyz,abc
但我只需要 xyz,abc 值。
我已经搜索了解决方案,但没有获得更多信息。
您能解释一下 Portia scrapy 中的正则表达式吗?
【问题讨论】:
标签: python-2.7 web-crawler scrapy-spider portia
我可以使用 Portia 网络爬虫对网页进行注释,我的问题是如何在提取数据时使用正则表达式。
例如,
我已从页面中提取位置文件
输出看起来像,
位置:位置 xyz,abc
但我只需要 xyz,abc 值。
我已经搜索了解决方案,但没有获得更多信息。
您能解释一下 Portia scrapy 中的正则表达式吗?
【问题讨论】:
标签: python-2.7 web-crawler scrapy-spider portia
您需要使用捕获组来提取数据,因此在这种情况下:
Location: (.*)
这告诉 portia 提取 Location: 字符串后面的所有数据。
例如,如果您只想提取 Location: 和 , 之间的所有数据,则可以使用以下命令:
Location: (.*),
您还可以将信息放在捕获组中,以便提取直到并包括您的模式的所有数据。
【讨论】: