Scrapy忽略robots.txt而不解析页面答案

【问题标题】：Scrapy ignoring robots.txt and not parsing pageScrapy忽略robots.txt而不解析页面
【发布时间】：2017-05-18 23:02:21
【问题描述】：

我正在尝试以与我在one of the answers 中找到的类似的方式抓取ACRIS（查看更新答案）。我稍微修改了代码以删除不推荐使用的内容。

起初我遇到robots.txt 限制我的问题，所以我发现我可以在settings.py 中设置ROBOTSTXT_OBEY=False，实际上它似乎忽略了它，但由于某种原因蜘蛛没有到达parse方法了。

这是我的蜘蛛

from scrapy.http import Request, FormRequest
from scrapy.item import Item, Field
from scrapy.spiders import Spider
import logging

class AcrisItem(Item):
    borough = Field()
    block = Field()


class AcrisSpider(Spider):
    name = "acris"
    allowed_domains = ["a836-acris.nyc.gov"]
    start_urls = ['https://a836-acris.nyc.gov/DS/DocumentSearch/PartyName']

    def start_requests(self):
        return [(Request(url, meta={'dont_redirect': True}, callback=self.parse)) for url in self.start_urls]

    def parse(self, response):
        form_token = response.selector.xpath('//input[@name="__RequestVerificationToken"]/@value').extract_first()

        logging.debug('THE FORM TOKEN IS: %s\n\n' % form_token)

        formdata = {
            "__RequestVerificationToken": form_token,
            "hid_last": "SMITH",
            "hid_first": "JOHN",
            "hid_ml": "",
            "hid_suffix": "",
            "hid_business": "",
            "hid_selectdate": "To Current Date",
            "hid_datefromm": "",
            "hid_datefromd": "",
            "hid_datefromy": "",
            "hid_datetom": "",
            "hid_datetod": "",
            "hid_datetoy": "",
            "hid_partype": "",
            "hid_borough": "All Boroughs/Counties",
            "hid_doctype": "All Document Classes",
            "hid_max_rows": "10",
            "hid_page": "1",
            "hid_partype_name": "All Parties",
            "hid_doctype_name": "All Document Classes",
            "hid_borough_name": "All Boroughs/Counties",
            "hid_ReqID": "",
            "hid_SearchType": "PARTYNAME",
            "hid_ISIntranet": "N",
            "hid_sort": ""
        }

        if form_token:
            yield FormRequest(url="https://a836-acris.nyc.gov/DS/DocumentSearch/PartyNameResult",
                              method="POST",
                              formdata=formdata,
                              meta={'dont_redirect': True},
                              callback=self.parse_page)

    def parse_page(self, response):
        rows = response.selector.xpath('//form[@name="DATA"]/table/tbody/tr[2]/td/table/tbody/tr')

        for row in rows:
            item = AcrisItem()

            borough = row.xpath('.//td[3]/div/font/text()').extract_first()
            block = row.xpath('.//td[4]/div/font/text()').extract_first()

            if borough and block:
                item['borough'] = borough
                item['block'] = block

                yield item

这是输出（减去初始化消息）

2017-01-04 17:06:12 [scrapy.core.engine] INFO: Spider opened
2017-01-04 17:06:12 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-01-04 17:06:12 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-01-04 17:06:41 [scrapy.core.engine] DEBUG: Crawled (301) <GET https://a836-acris.nyc.gov/DS/DocumentSearch/PartyName> (referer: None)
2017-01-04 17:06:41 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <301 https://a836-acris.nyc.gov/DS/DocumentSearch/PartyName>: HTTP status code is not handled or not allowed
2017-01-04 17:06:41 [scrapy.core.engine] INFO: Closing spider (finished)
2017-01-04 17:06:41 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 243,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 414,
 'downloader/response_count': 1,
 'downloader/response_status_count/301': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2017, 1, 4, 15, 6, 41, 791647),
 'log_count/DEBUG': 2,
 'log_count/INFO': 8,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2017, 1, 4, 15, 6, 12, 467659)}
2017-01-04 17:06:41 [scrapy.core.engine] INFO: Spider closed (finished)

【问题讨论】：

您的 'dont_redirect': True 元设置阻止重定向，这是故意的吗？

标签： python web-scraping scrapy web-crawler

【解决方案1】：

您禁止在start_requests 上直接重定向。所以301 应该到达parse 方法，不幸的是你没有让这个响应状态码通过。

使用属性允许它：

class AcrisSpider(Spider):
    ...
    handle_httpstatus_list = [301, 302]
    ...

或在请求中传递handle_httpstatus_all=True 元参数，如：

return [(Request(url, meta={'dont_redirect': True, 'handle_httpstatus_all':True}, callback=self.parse)) for url in self.start_urls]

【讨论】：

好的，现在正在调用parse，但似乎响应不是预期的页面。我刮掉了标题，上面写着“文档已移动”，而不是“ACRIS Search By Party Name”。知道发生了什么吗？
你不是在爬301 状态吗？那是一个重定向。如果您不想处理重定向，为什么要添加 dont_redirect 元参数？还访问该站点表明访问 ACRIS 被拒绝
我确实想处理它，但由于某种原因，我没有得到我认为我应该得到的文档。在浏览器中访问a836-acris.nyc.gov/DS/DocumentSearch/PartyName 可以获得所需的文档，但使用scrapy 似乎我得到了其他东西，但我不太明白为什么。我需要第一页的验证码才能转到下一页，但正如我所说的，我正在获取“文档已移动”
虽然它对我不起作用，但您确实回答了原始问题，所以我必须接受它。谢谢。