如何在 Portia visual scrapy 中使用正则表达式？

【问题标题】：How to use regex in Portia visual scrapy?如何在 Portia visual scrapy 中使用正则表达式？
【发布时间】：2015-03-20 06:00:15
【问题描述】：

我可以使用 Portia 网络爬虫对网页进行注释，我的问题是如何在提取数据时使用正则表达式。

例如，

我已从页面中提取位置文件

输出看起来像，

位置：位置 xyz,abc

但我只需要 xyz,abc 值。

我已经搜索了解决方案，但没有获得更多信息。

您能解释一下 Portia scrapy 中的正则表达式吗？

【问题讨论】：

【解决方案1】：

您需要使用捕获组来提取数据，因此在这种情况下：

Location: (.*)

这告诉 portia 提取 Location: 字符串后面的所有数据。

例如，如果您只想提取 Location: 和 , 之间的所有数据，则可以使用以下命令：

Location: (.*),

您还可以将信息放在捕获组中，以便提取直到并包括您的模式的所有数据。

【讨论】：