【发布时间】:2018-04-11 18:46:20
【问题描述】:
最近,Scrapinghub 的免费包中不再提供定期作业,这是我用来运行 Scrapy 爬虫的工具。
因此,我决定改用Scrapyd。所以我继续安装了一个运行 Ubuntu 16.04 的虚拟服务器。 (这是我第一次设置和运行服务器,请多多包涵)
按照scrapyd.readthedocs.io 上的说明,我使用 pip 安装了 Scrapyd:
$ pip install scrapyd
(那是在我发现 Ubuntu 推荐的使用 apt-get 的方式实际上不再受支持之后,请参阅 Github)。
然后我使用 SSH 登录到我的服务器,并通过简单的运行来运行 Scrapyd
$ scrapyd
据我所知,一切看起来都很好:
2017-10-30 17:31:19+0000 [-] Log opened.
2017-10-30 17:31:19+0000 [-] twistd 16.0.0 (/usr/bin/python 2.7.12) starting up.
2017-10-30 17:31:19+0000 [-] reactor class: twisted.internet.epollreactor.EPollReactor.
2017-10-30 17:31:19+0000 [-] Site starting on 6800
2017-10-30 17:31:19+0000 [-] Starting factory <twisted.web.server.Site instance at 0x7f644752bfc8>
2017-10-30 17:31:19+0000 [Launcher] Scrapyd 1.2.0 started: max_proc=4, runner=u'scrapyd.runner'
当我访问我的 IP 地址 http://82.165.102.18:6800 时,我希望看到一个 Web 界面(描述为 here)。
相反,我只收到错误消息“无法访问此站点 82.165.102.18 拒绝连接。”
当我尝试在本地运行 Scrapyd 时,一切正常,我在http://localhost:6800/ 获得了 Web 界面。
我已尝试禁用防火墙 (UFW),但这没有帮助。
在这一点上,我迷路了。如果您有任何想法,请告诉我!
非常感谢!
【问题讨论】:
-
这个问题可能属于元线程,但在 cmets 中是否允许征集?
标签: ubuntu scrapy scrapyd scrapinghub