【发布时间】:2020-01-21 10:46:01
【问题描述】:
我有一本包含大约 10,000 个键的字典,其中每个键包含一个如下字符串:
my_string = pd.DataFrame(np.random.randint(0, 100,size=(3000, 11))).to_string()
如果转换为DataFrame,每个字符串的行数在 1000 到 5000 之间,但总是 11 列。
最后,我需要np.array 或pd.DataFrame 中的每个字符串才能使用它。
我的问题是:提供完整信息的快速格式是什么?
最好将其保留为包含数千个字符串的字典,还是制作某种包含 3d 对象的 np.array 或 xarray 更好?
后者的问题是行大小不同,所以我可能需要填充nan 值以使它们的长度相同或其他。
在这种情况下,最佳做法是什么?我试图避免循环,因为这将非常耗时。
【问题讨论】:
-
您能描述一下您要解决的问题吗?您创建大型数据框,将它们转换为字符串并将它们用作字典键,然后再转换回来(有趣,值是什么样的)。我觉得这个任务很奇怪。
-
我不创建数据帧,我读的是这样的(它们以字符串格式存储......谁知道为什么)。所以基本上当我读取数据时,它是一个巨大的字典,有数千个键,其中每个键是一个巨大的字符串,字符串是我上面描述的格式的数据帧。这有帮助吗?
-
等待 - 你的字典是一个数据帧的字符串?
-
不,这没有多大帮助。我会深入研究数据并寻找更优化的解决方案来阅读它们。但是,这取决于目标。我仍然不知道你在解决什么问题。如果您只需要读取一次数据,那么简单的循环可能就可以了。如果你有“数据流”,那么你应该优化阅读功能。
标签: python pandas numpy dictionary