【问题标题】:How to use regex in Portia visual scrapy?如何在 Portia visual scrapy 中使用正则表达式?
【发布时间】:2015-03-20 06:00:15
【问题描述】:

我可以使用 Portia 网络爬虫对网页进行注释,我的问题是如何在提取数据时使用正则表达式。

例如,

我已从页面中提取位置文件

输出看起来像,

位置:位置 xyz,abc

但我只需要 xyz,abc 值。

我已经搜索了解决方案,但没有获得更多信息。

您能解释一下 Portia scrapy 中的正则表达式吗?

【问题讨论】:

    标签: python-2.7 web-crawler scrapy-spider portia


    【解决方案1】:

    您需要使用捕获组来提取数据,因此在这种情况下:

    Location: (.*)
    

    这告诉 portia 提取 Location: 字符串后面的所有数据。

    例如,如果您只想提取 Location:, 之间的所有数据,则可以使用以下命令:

    Location: (.*),
    

    您还可以将信息放在捕获组中,以便提取直到并包括您的模式的所有数据。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-09-20
      • 1970-01-01
      • 2018-01-05
      • 1970-01-01
      • 1970-01-01
      • 2015-12-18
      • 2020-09-14
      相关资源
      最近更新 更多