【发布时间】:2020-11-10 01:08:12
【问题描述】:
我有多个要抓取的 URL 存储在一个 csv 文件中,其中每一行都是一个单独的 URL,我正在使用此代码来运行它
def start\\_requests(self):
with open('csvfile', 'rb') as f:
list=[]
for line in f.readlines():
array = line.split(',')
url = array[9]
list.append(url)
list.pop(0)
for url in list:
if url != "":
yield scrapy.Request(url=url, callback=self.parse)
它给了我以下错误IndexError: list index out of range,任何人都可以帮我纠正这个错误或建议另一种使用该 csv 文件的方法吗?
编辑: csv 文件如下所示:
http://example.org/page1
http://example.org/page2
有 9 行这样的行
【问题讨论】:
-
能否分享一些您的 csv 文件以帮助找出问题所在。
IndexError: list index out of range很可能表明原因可能是由于url = array[9] -
它实际上是一个csv文件,其中每一行都是一个URL,没有额外的符号,没有分隔符,什么都没有,有9行用于测试目的
-
编辑问题以显示 csv 文件
标签: python web-scraping scrapy