【发布时间】:2017-07-19 12:58:49
【问题描述】:
下面我有一个代码,其中读取 csv 文件并从文件中随机抽取700 样本。
我需要对多个文件执行此操作,但如果我遍历文件,每个文件的样本(因为它是随机的)将是不同的,而我希望在随机生成后保持相同。
df = pd.read_csv(file.csv, delim_whitespace=True)
df_s = df.sample(n=700)
我的想法是获取行号,然后将其传递给下一个文件,但这似乎不是很优雅。
你知道这个问题有什么好的解决方案吗?
澄清
文件长度不同,但有最小文件长度:750。
期望的结果示例
df1 = pd.read_csv(file1.csv, delim_whitespace=True)
df_s1 = df1.sample(n=700) # choose random sample
df2 = pd.read_csv(file2.csv, delim_whitespace=True)
df_s2 = df2.sample(n=700) # use same random sample as above
【问题讨论】:
-
它们的形状一样吗?
-
它们的列数相同,但行数不同