从具有/相同标题的 2 个 CSV 文件中，将行随机插入 python 中的第 3 个 CSV 文件

【问题标题】：From 2 CSV files w/ same header, insert rows randomly into 3rd CSV file in python从具有/相同标题的 2 个 CSV 文件中，将行随机插入 python 中的第 3 个 CSV 文件
【发布时间】：2020-04-01 14:56:28
【问题描述】：

我正在尝试生成一个数据集来训练/测试神经网络；我的真实值在一个 .csv 中，而错误值在另一个 csv 在 python 3 中。

我想将两者随机混合到第三个 csv 中。

所以我有三个 .csv 文件：

-CSV1 的行数比 CSV2 多，两个标题都相同

-想将行从CSV1和CSV2随机写入一个新的CSV3

例如：

CSV1 = [A,B],[C,D],[E,F],[G,H],[I,J],[K,L]

CSV2 = [1,2],[3,4],[5,6]

运行代码

CSV3 = [A,B],[C,D],[1,2],[E,F],[3,4],[G,H],[I,J],[K, L],[5,6]

我该怎么做呢？

【问题讨论】：

你试过什么？你能详细说明吗？ Stack Overflow 是针对特定问题，你认为这符合要求吗？

标签： python arrays csv machine-learning dataset

【解决方案1】：

欢迎来到 Stackoverflow！

请在此处发布之前提及您尝试过的内容。

假设您将 2 个 csv 文件读入数据帧

df1 = pd.read_csv("CSV1.csv")
df2 = pd.read_csv("CSV2.csv")

首先你连接 2 个数据帧

df3 = pd.concat([df1,df2],axis=1)

然后为了随机性，你可以洗牌

from sklearn.utils import shuffle
df3 = shuffle(df3)

注意：洗牌后您可能需要重置索引：

df3.reset_index(inplace=True, drop=True)

【讨论】：

您好，感谢您的帮助。我尝试了您的建议。但是，当我尝试 pd.DataFrame(df3).to_csv("df3.csv") 时，我生成的数据（称为“df3”）看起来很奇怪，似乎所有的行和列都搞砸了。