【问题标题】:Iterate a form using Scrapy使用 Scrapy 迭代表单
【发布时间】:2023-04-07 05:59:01
【问题描述】:

我需要迭代一个表单,用不同的选项填写它。我已经可以使用 Scrapy 和 Python 为一组变量抓取/scrape 数据,但我需要遍历它们的列表。

目前,我的蜘蛛可以登录、填写表格并抓取数据。

登录并填写我使用的表格:

class FormSpider(CrawlSpider):
    name= 'formSpider'
    allow_domain = ['example.org']
    start_urls = ['https://www.example.org/en-en/']

    age = '35'
    days = '21'
    S1 = 'abc'
    S2 = 'cde'
    S3 = 'efg'
    S4 = 'hij'
 
    def parse(self, response):
        token = response.xpath('//*[@name="__VIEWSTATE"]/@value').extract_first()
        return FormRequest.from_response(response,
                                         formdata={'__VIEWSTATE': token,
                                                   'Password': 'XXXXX',
                                                   'UserName': 'XXXXX'},
                                         callback=self.scrape_main)

我使用此代码来完成表格:

    def parse_transfer(self, response):
            return FormRequest.from_response(response,
                                           formdata={"Age" : self.age,
                                                     "Days" : self.days,
                                                     "Skill_1" : self.S1,
                                                     "Skill_2" : self.S2,
                                                     "Skill_3" : self.S2,
                                                     "Skill4" : self.S3                                                     
                                                     "butSearch" : "Search"},
                                           callback=self.parse_item)

然后,我抓取数据并将其导出为 CSV。

我现在需要的是迭代表单中的输入。我正在考虑为每个变量使用一个列表来每次更改形式(我只需要一定数量的组合)。

    age = ['35','36','37','38']
    days = ['10','20','30','40']
    S1 = ['abc','def','ghi','jkl']
    S2 = ['cde','qwe','rty','yui'] 
    S3 = ['efg','asd','dfg','ghj']
    S4 = ['hij','bgt','nhy','mju']

所以我可以像这样迭代表单:

age[0],days[0],S1[0],S2[0],S3[0],S4[0]... age[1],days[1]... and so on 

有什么推荐吗?我愿意接受不同的选项(不仅是列表)以避免创建多个蜘蛛。

更新

这是最终代码:

    def parse_transfer(self, response):
            return FormRequest.from_response(response,
                                           formdata={"Age" : self.age,
                                                     "Days" : self.days,
                                                     "Skill_1" : self.S1,
                                                     "Skill_2" : self.S2,
                                                     "Skill_3" : self.S2,
                                                     "Skill4" : self.S3                                                     
                                                     "butSearch" : "Search"},
                                           dont_filter=True,
                                           callback=self.parse_item)
    def parse_item(self, response):
        open_in_browser(response)
        # it opens all the websites after submitting the form :)

【问题讨论】:

    标签: python forms loops scrapy iteration


    【解决方案1】:

    很难理解您当前的parse_transfer() 是什么意思,因为您的FormSpider 没有我们可以看到的self.skill_1。此外,您可能不需要在这里继承 CrawlSpider。并将returns 更改为yields

    要对表单进行迭代,我建议将您当前拥有的蜘蛛属性替换为您将用于迭代的列表。

    然后循环进入parse_transfer()

    def parse_transfer(self, response):
        for i in range(len(age)):
            yield FormRequest.from_response(response,
                                           formdata={"Age" : self.age[i],
                                                     "Days" : self.days[i],
                                                     "Skill_1" : self.S1[i],
                                                     "Skill_2" : self.S2[i],
                                                     "Skill_3" : self.S3[i],
                                                     "Skill_4" : self.S4[i]
                                                     "butSearch" : "Search"},
                                           callback=self.parse_item)
    

    不过,根据网站接受请求的方式,这可能不是一个可行的解决方案。

    【讨论】:

    • 你是对的。技能 1 不应该存在(已编辑)。我会尝试你的选择。谢谢。
    • 超级...这些建议非常有效。由于我是从 Scrapy 开始的,你能向我解释一下 returnyield 在这种情况下是如何工作的吗?
    • 好的,正在查看结果...迭代有效。但只有最后一次迭代将请求传递给 Def parse_item(self, response)。有什么建议吗?
    • 好的!我必须在表单 request() 的末尾添加 dont_filter = True。
    • 是的,dont_filter 是必要的,因为 BaseDupeFilter 将请求指纹视为相同。而yield并不是Scrapy独有的,它是一个重要的python关键字。 stackoverflow.com/questions/231767/…
    猜你喜欢
    • 2015-05-29
    • 2014-05-28
    • 1970-01-01
    • 1970-01-01
    • 2021-09-29
    • 2017-05-13
    • 2022-11-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多