【问题标题】:From 2 CSV files w/ same header, insert rows randomly into 3rd CSV file in python从具有/相同标题的 2 个 CSV 文件中,将行随机插入 python 中的第 3 个 CSV 文件
【发布时间】:2020-04-01 14:56:28
【问题描述】:

我正在尝试生成一个数据集来训练/测试神经网络;我的真实值在一个 .csv 中,而错误值在另一个 csv 在 python 3 中

我想将两者随机混合到第三个 csv 中。

所以我有三个 .csv 文件:

-CSV1 的行数比 CSV2 多,两个标题都相同

-想将行从CSV1和CSV2随机写入一个新的CSV3

例如:

CSV1 = [A,B],[C,D],[E,F],[G,H],[I,J],[K,L]

CSV2 = [1,2],[3,4],[5,6]

运行代码

CSV3 = [A,B],[C,D],[1,2],[E,F],[3,4],[G,H],[I,J],[K, L],[5,6]

我该怎么做呢?

【问题讨论】:

  • 你试过什么?你能详细说明吗? Stack Overflow 是针对特定问题,你认为这符合要求吗?

标签: python arrays csv machine-learning dataset


【解决方案1】:

欢迎来到 Stackoverflow!

请在此处发布之前提及您尝试过的内容。

假设您将 2 个 csv 文件读入数据帧

df1 = pd.read_csv("CSV1.csv")
df2 = pd.read_csv("CSV2.csv")

首先你连接 2 个数据帧

df3 = pd.concat([df1,df2],axis=1)

然后为了随机性,你可以洗牌

from sklearn.utils import shuffle
df3 = shuffle(df3)

注意:洗牌后您可能需要重置索引:

df3.reset_index(inplace=True, drop=True)

【讨论】:

  • 您好,感谢您的帮助。我尝试了您的建议。但是,当我尝试 pd.DataFrame(df3).to_csv("df3.csv") 时,我生成的数据(称为“df3”)看起来很奇怪,似乎所有的行和列都搞砸了。
猜你喜欢
  • 2017-12-01
  • 1970-01-01
  • 2013-04-15
  • 2015-09-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-06-15
  • 1970-01-01
相关资源
最近更新 更多