【发布时间】:2017-01-11 16:40:04
【问题描述】:
我创建了一个字典d = {},然后循环浏览网页并将每个页面的数据存储在d[i] 中。每页的数据大约是 20 列和 100 行数据。完成后,我可以拥有任意数量的索引。我遇到的问题是某些页面是重复的。所以d[3] 和d[4] 可能是重复的。
我最终将每个索引转换为一个数据框,如下所示:
df1 = d[0]
df1 = pd.DataFrame(df1[0])
如果我知道索引的数量,我就知道如何将它们转换为一个数据帧,如下所示:
dfs = len(d)
#Union dataframes
if dfs == 4:
df1 = d[0]
df2 = d[1]
df3 = d[2]
df4 = d[3]
df1 = pd.DataFrame(df1[0])
df2 = pd.DataFrame(df2[0])
df3 = pd.DataFrame(df3[0])
df4 = pd.DataFrame(df4[0])
df = pd.concat([df1,df2,df3,df4])
但是,我并不总是知道号码。有没有办法对未知数量的索引执行此操作并删除重复页面?我正在考虑创建一个带有变量对象名称的 for 循环,但我知道这可能不是最好的方法。
【问题讨论】:
标签: python pandas dictionary dataframe unique