【发布时间】:2017-02-12 20:16:24
【问题描述】:
我想从 robots.txt 文件包含的网站上抓取一些数据,这是否意味着我可以从 wp-admin 之外的任何地方抓取? 还有其他方法可以让我知道该网站允许抓取/抓取而没有任何阻塞吗? 对于抓取,我使用 Python Scrapy 框架。
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
【问题讨论】:
-
检查
robots.txt始终是查看是否允许抓取的好方法。我也会检查 TOS 和 EULA。是的,这就是robots.txt的意思。 -
我对TOS和EULA一无所知,请您提供任何链接或一些细节,非常感谢! @MorganThrapp
-
服务条款和最终用户许可协议。它会因站点而异。
标签: python-3.x scrapy