【发布时间】:2017-09-26 09:03:57
【问题描述】:
我正在使用 scrapy 检查我感兴趣的某些服装产品的价格和供货情况。
程序本身按预期工作,但现在我不确定如何让它不断循环以作为页面监视器工作。我计划租用一台服务器让它无限期地在那里运行,如果可用性或价格发生变化,它会通过 slack 通知我。我只使用了一只蜘蛛,所以我的代码看起来像这样:
class MonitorSpider(SitemapSpider):
name = 'page_monitor'
sitemap_urls = [
'https://www.example.com/sitemap.xml'
'https://www.example.com/sitemap.xml'
'https://www.example.com/sitemap.xml'
]
# Using the sitemap rules so time won't be wasted following links I don't care about
sitemap_rules =[('keyword', 'parse')]
def parse(self, response):
magically get price and availability
另外,如果有人能解决我之前与朋友的辩论,那也很有帮助。他认为对于这样的项目,漂亮的汤会运行得更快,但我认为scrapy 是更好的选择,因为我过去遇到过scrapy 的问题是它通常太快并且可以让你暂时被IP 禁止访问网站(我计划合并代理来解决这个问题)。我知道我可以制作一个脚本,使用漂亮的汤来复制这个脚本,然后只测试这两个脚本,但如果没有必要,我宁愿不这样做。
速度对于这个程序非常重要。我希望尽快收到通知。
【问题讨论】:
标签: python beautifulsoup scrapy