【发布时间】:2020-01-18 09:01:16
【问题描述】:
我是爬虫和 python 的新手。我正在尝试从此 URL 中抓取多个表:https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes。我进行了抓取,现在我正在尝试将数据框保存到 csv 文件中。我试过了,但它只存储页面中的第一个表。
代码:
from pandas.io.html import read_html
page = 'https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes'
wikitables = read_html(page, index_col=0, attrs={"class":"wikitable plainrowheaders wikiepisodetable"})
print ("Extracted {num} wikitables".format(num=len(wikitables)))
for line in range(7):
df= pd.DataFrame(wikitables[line].head())
df.to_csv('file1.csv')
【问题讨论】:
-
I tries but failed,怎么回事? -
总是将完整的错误消息(从单词“Traceback”开始)作为文本(不是屏幕截图)放在有问题的(不是评论)中。还有其他有用的信息。
-
read_html应该为您提供dataframes的列表-因此您不必将其转换为dataframe,而是直接编写它-即。wikitables[0].to_csv('file0.csv'),wikitables[1].to_csv('file1.csv') -
对不起。我会牢记它的未来