【发布时间】:2021-10-14 07:03:52
【问题描述】:
假设我们有一个 csv 数据集。让数据具有代表性如下。假设 csv 中有 1000 列和 1000 行包含这些数据。
假设我们在 Keras 库中执行回归和预测操作时使用 A 列和 B 列。我想删除A中的重复数据,只留下一个。例如,如果 1 个中有 5 个,则只剩下 4 个。同时,我希望从 B 列或任何 X 列中删除从重复数据中删除的所有 4 个数据。
如果我们将其视为 2 个不同的场景,
A 列中的重复数据同样会从 B 列或任何其他列中删除。
另一种情况是删除多个,即每列中的重复数据相互独立。
回归过程需要使用 keras 模块对最后剩余的数据进行。
你能帮忙吗?
【问题讨论】:
-
您能否提供一个输出示例来说明您的期望?
-
@kodkirurg 场景 1,A 1 2 3 4 5,B 2 4 5 1 3 6 8,C 1 6 3 4,D 2 6 9 0 1 3,E 8 6 1 2 3 5 7
-
@kodkirurg 场景 2,A 1 2 3 4 5,B 2 4 5 6 8,C 1 6 3 1 3,D 2 6 9 6 3,E 8 6 1 5 7,主要目标是,从数据集中删除重复数据以使用 keras 应用回归
-
你的意思是每列应该只包含唯一值,如果确实存在非唯一值,我们会删除整行?
-
pandas.pydata.org/pandas-docs/stable/reference/api/… 可能是您正在寻找的。我能理解你在做什么,我可能可以帮你写代码。
标签: python pandas machine-learning keras deep-learning