使用来自同一 URL 的多个 POST 数据进行抓取答案

【问题标题】：Scrape using multiple POST data from the same URL使用来自同一 URL 的多个 POST 数据进行抓取
【发布时间】：2013-07-14 23:36:09
【问题描述】：

我已经创建了一个蜘蛛，它收集公司名称和匹配的电话号码的列表。然后将其保存到 CSV 文件中。

然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个站点抓取数据。我希望它遍历相同的起始 URL，但只是抓取每个电话号码产生的数据，直到 CSV 文件中没有更多的号码。

这是我目前得到的：

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector
from scrapy import log
import sys
from scrapy.shell import inspect_response
from btw.items import BtwItem
import csv

class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["siteToScrape.com"]
    start_urls = ["http://www.siteToScrape.com/broadband/broadband_checker"] 

    def parse(self, response):
        phoneNumbers = ['01253873647','01253776535','01142726749']

        return [FormRequest.from_response(response,formdata={'broadband_checker[phone]': phoneNumbers[1]},callback=self.after_post)]


    def after_post(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//div[@id="results"]')
       items = []
       for site in sites:
           item = BtwItem()

           fttcText = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()

           # Now we will change the text to be a boolean value
           if fttcText[0].count('not') > 0:
               fttcEnabled=0
           else:
               fttcEnabled=1

           item['fttcAvailable'] = fttcEnabled
           items.append(item)
       return items

目前我只是试图通过一个列表（电话号码）来循环，但到目前为止我什至还没有设法让它工作。一旦我知道该怎么做，我就可以自己从 CSV 文件中提取它。在当前状态下，它只是使用列表中索引为 1 的 phoneNumber。

【问题讨论】：

你能澄清一下这个问题吗？您可以使用for p in phoneNumbers: 在 Python 中循环遍历列表。但是，我怀疑这不是您要问的。
我能够运行上面的代码没有任何错误，那么什么不工作？

标签： python loops web-scraping screen-scraping scrapy

【解决方案1】：

假设您有一个phones.csv 文件，其中包含电话：

01253873647
01253776535
01142726749

这是你的蜘蛛：

import csv
from scrapy.item import Item, Field

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector


class BtwItem(Item):
    fttcAvailable = Field()
    phoneNumber = Field()


class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["samknows.com"]

    def start_requests(self):
        yield Request("http://www.samknows.com/broadband/broadband_checker", self.parse_main_page)

    def parse_main_page(self, response):
        with open('phones.csv', 'r') as f:
            reader = csv.reader(f)
            for row in reader:
                phone_number = row[0]
                yield FormRequest.from_response(response,
                                                formdata={'broadband_checker[phone]': phone_number},
                                                callback=self.after_post,
                                                meta={'phone_number': phone_number})

    def after_post(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//div[@id="results"]')

        phone_number = response.meta['phone_number']
        for site in sites:
            item = BtwItem()

            fttc = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()
            item['phoneNumber'] = phone_number
            item['fttcAvailable'] = 'not' in fttc[0]

            yield item

这是运行后抓取的内容：

{'fttcAvailable': False, 'phoneNumber': '01253873647'}
{'fttcAvailable': False, 'phoneNumber': '01253776535'}
{'fttcAvailable': True, 'phoneNumber': '01142726749'}

想法是使用start_requests 抓取主页，然后在回调中逐行读取csv 文件，并为每个电话号码（csv 行）读取yield 新Requests。此外，通过meta 字典将phone_number 传递给回调，以便将其写入Item 字段（我认为您需要这个来区分项目/结果）。

希望对您有所帮助。

【讨论】：