有没有办法用 scikit-learn “重新创建”数据？答案

【问题标题】：Is there a way to "recreate" data with scikit-learn?有没有办法用 scikit-learn “重新创建”数据？
【发布时间】：2018-01-09 00:42:06
【问题描述】：

我的问题是关于 python 中的 scikit-learn。假设我有 3 个特征 A、B 和 C，分别是 A 和 B em> 能够在这样的代码中预测 C：

exampleModel.fit(AandB, C) 
exampleModel.predict(C)

有没有办法让我输入一些 C 值，并获得实现该 所需的 A 和 B 值C 值？几乎是反向输入。如果有办法，怎么叫？

【问题讨论】：

我认为代数不允许这样做
给定标签，生成数据？不，不可能，很遗憾。
根据您预测 C 的方法，有一些方法可以估计/生成相似的输入。据我所知，Scikit-learn 不适合这种计算。但是您可以使用restricted boltzmann machines 来创建输出的“幻想”，autoencoders/decoders 来估计输入。这都是有点过时的技术。您可能需要在 sklearn 库中进行大量更改才能使其正常工作。

标签： python machine-learning scipy scikit-learn prediction

【解决方案1】：

是的，有可能！

但是你需要非常清楚你想要什么：A、B和C怎么样相关 - 决定什么是合适的预测模型。

您还需要意识到，不可能有“完美”的重构。 A 和 B 通常是比 C 更丰富的表示。除非它们非常受限（例如 A 和 B 之间的高度相关性），否则从 AB 到 C 时会丢失一些信息。这些信息无法恢复。

这不适用于所有模型，每个模型的工作方式都不同，并且它不是直接在 scikit-learn 中实现的。换句话说，你将不得不做一些手工工作，你需要知道你在做什么。特别是，您需要了解您正在使用的模型。没有即插即用的解决方案。

假设 A 和 B 是连续特征，而 C 是离散的 0 或 1。在这种情况下，合适的模型是一个分类器。让我们进一步假设 A 和 B 很好地聚集在不同的 blob 中，用于不同的 C。在这种情况下，线性分类器可以工作。

我将提供Linear Discriminant Analysis 的示例。它通过将类中心线性投影到最具辨别力的方向来工作。一般来说，我们需要反转这个投影，但幸运的是 LDA 暴露了原始的类中心。要从给定的 C 中获取原始特征的表示，我们只需要找到正确的类中心。

import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

np.random.seed(7)


def inverse_lda(lda, C):
    c = np.flatnonzero(model.classes_ == C)
    return model.means_[c]


AB, C = make_blobs(n_samples=333, n_features=2, centers=2)  # toy data
A, B = AB.T

plt.scatter(A, B, c=C, alpha=0.5)
plt.xlabel('A')
plt.ylabel('B')

model = LDA(store_covariance=True).fit(AB, C)

# reconstruct A and B for C=[0, 1]
ABout = inverse_lda(model, C=[0, 1])

plt.plot(ABout[0, 0], ABout[0, 1], 'o', label='C=0')
plt.plot(ABout[1, 0], ABout[1, 1], 'o', label='C=1')
plt.legend()

【讨论】：

这就是我一直在寻找的。只是为了确保，这被称为判别分析，对吧？你救了我，现在我有了一个可以更好地搜索的名字，谢谢。也感谢您编辑我的问题，我是 stackoverflow 新手。
（线性）判别分析是某种分类器。您要查找的内容并没有真正的名称，原则上也可以使用其他分类器来完成。我只是碰巧知道 LDA 的详细工作原理；）