imblearn.over_sampling import ADASYN 中 X 和 y 的值是多少答案

【问题标题】：What is the value of X and y from imblearn.over_sampling import ADASYNimblearn.over_sampling import ADASYN 中 X 和 y 的值是多少
【发布时间】：2018-01-27 07:20:47
【问题描述】：

我正在处理来自 UCI 存储库的肝炎数据集。它有不平衡的阶级。班级分布：死亡：32 直播：123 我正在尝试使用 ADASYN 过采样方法来平衡类。

在示例中，他们生成了一个数据集并将其传递给 ADASYN。有人可以用这种格式解释一下 x 和 y 的值应该基于数据集吗？

我指的是下面链接中的示例。

https://561-36019880-gh.circle-artifacts.com/0/home/ubuntu/imbalanced-learn/doc/_build/html/generated/imblearn.over_sampling.ADASYN.html#imblearn.over_sampling.ADASYN

请帮助我根据需要将数据集拆分为 X 和 Y 值以传递给 ADASYN

【问题讨论】：

标签： python pandas scikit-learn

【解决方案1】：

你的问题不清楚。但这可能会有所帮助：

X - 2D 矩阵，其中行是示例，列是您的特征 Y - 是您的响应，例如，True（LIVE 类）和False（DIE 类）的一维向量。

from imblearn.over_sampling import ADASYN
# Apply the random over-sampling
ada = ADASYN()
X_resampled, y_resampled = ada.fit_sample(X, y)

X_resampled 和 y_resampled 现在包括您的原始数据和重新采样的数据。查看y_resampled，您应该观察到每个类的标签数量相同。

供您参考：

https://github.com/scikit-learn-contrib/imbalanced-learn/blob/master/examples/over-sampling/plot_adasyn.py

【讨论】：

我们如何将数据集拆分为 x 和 y？ X 应该是类标签列以外的列，y 应该是类标签列吗？？
拆分后如何使用平衡数据集创建新的 csv。
如果您使用pandas 来管理您的数据，那么您可以使用 [pandas.DataFrame.to_csv] (pandas.pydata.org/pandas-docs/stable/generated/…) 或者您可以在 StackOverflow 上查看 [this] (stackoverflow.com/questions/2084069/…)从 python lists 创建 CSV。