【发布时间】:2018-08-17 15:01:09
【问题描述】:
我不知道如何处理以下问题。我想从存储在数据框每一行中的 URL 中抓取多个图像,并将图像按它们各自的 categoryId 存储在一个文件夹中。然而,这是可能的过程,但现在有一些小错误,我不知道如何修复它。以下代码 sn -p 演示了下载和存储文件的过程:
import os
for x in range(df.shape[0]):
ID = df.categoryId[x]
print(ID)
if not os.path.exists(ID):
os.makedirs(ID)
urllib.request.urlretrieve(str(df.image_url[x]), "{}/image{}.jpg".format(ID, x))
问题是在第一个类别 (19) 中将存储所有图像(所有类别),但实际上只有 165 个文件。其他类别的图像与正确数量的图像一起正确存储。我还尝试计算数字类别并将其分布在不同的文件夹中,但它不起作用。
df.categoryId.value_counts()
Output:
19 165
24 23
1 8
10 2
20 1
23 1
【问题讨论】:
标签: python-3.x pandas dataframe web-scraping web-crawler