【问题标题】:Multiclass Classification using Python使用 Python 进行多类分类
【发布时间】:2018-09-03 13:12:19
【问题描述】:

我有一个包含 feature0 到 feature249 的 excel 文件,并且都是浮点数(总共 250 个功能和 7000 个数据点)。并用相应的类值标记列。有 5 个独特的类别 (0-4)。没有可用的数据字典。我必须在 train.csv 上训练模型并计算来自 test.csv 的数据的最可能的类标签。使用 Python。

问题 1: 我可以在 Python 中使用哪种算法,因为我是新手。有没有可以重用代码的模板或 github 链接? 我观察到所有类中的数据分布是均匀的。

问题 2: 我可以使用哪个包从 250 个变量中选择重要变量。因为我将在本地进行培训。

问题 3: 如何检查每个变量的分布?这样我就可以从数据中删除异常值和空值。 Python中的任何包可以自动执行此操作吗?

我的发现:

我试图从这个链接开始: http://scikitlearn.org/stable/modules/neural_networks_supervised.html#classification

在这一行

  scaler.fit(X_train)

X_train的类型是什么,是numpy数组。既然我在 excel 文件中有值,我是否将其带入 NUMpy 格式?

注意:由于我是多类分类问题的新手,所以我没有发布解决方案。任何帮助将不胜感激,而不是给出“-1”

【问题讨论】:

    标签: python-3.x


    【解决方案1】:

    您可以通过本网站根据您的需要选择您的算法:python/scikit-learn

    网站上有详细的算法说明和使用示例。

    对于您的其他需求,您可以使用 Pandas 和 Numpy 模块:

    pandas/fillna

    stackoverflow/detect-and-exclude-outliers-in-pandas-dataframe

    顺便说一下,为了拟合,你的 X_train 类型应该是 Numpy 数组。

    您可以从 csv 文件中读取数据,将它们存储在 Python 列表中,然后通过 np.asarray(list) 或简单地将该列表转换为 Numpy 数组:stackoverflow/how-to-read-csv-into-record-array-in-numpy

    【讨论】:

    猜你喜欢
    • 2018-05-13
    • 2020-01-19
    • 2018-05-02
    • 2020-07-11
    • 2017-09-27
    • 1970-01-01
    • 2016-12-16
    • 2020-12-12
    • 2019-12-10
    相关资源
    最近更新 更多