【问题标题】:import.io and portia regex url patternsimport.io 和 portia 正则表达式 url 模式
【发布时间】:2016-09-08 18:44:47
【问题描述】:

我正在使用数据抓取工具:Import.io 和 Portia。

它们都允许你为爬虫定义一个正则表达式来遵守。 例如网址:https://weedmaps.com/dispensaries/pdi-medical

我将如何解释结尾的“pdi-medical”?

我已经全面了解并了解如何在 JS 环境中使用正则表达式,但对于我在 Portia/Import.io 上的输入中到底输入了什么有点困惑

这样的? https://weedmaps.com/dispensaries//^[a-zA-Z0-9-_]+$/

【问题讨论】:

    标签: regex import.io portia


    【解决方案1】:

    对于 Portia,如果您希望您的爬虫跟踪任何以 https://weedmaps.com/dispensaries/ 开头的 URL,您只需使用以下正则表达式添加一个爬取规则:

    ^https?://weedmaps.com/dispensaries/

    【讨论】:

    • 谢谢!我运行了那个,我只在加利福尼亚获得药房,而不是任何其他州。知道为什么会这样吗?
    • 您的起始页中是否提供其他州的 URL?它们是否具有相同的 URL 模式?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-10-23
    • 2015-03-20
    • 2015-03-29
    • 2015-02-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多