使用 Python 进行多类分类

【问题标题】：Multiclass Classification using Python使用 Python 进行多类分类
【发布时间】：2018-09-03 13:12:19
【问题描述】：

我有一个包含 feature0 到 feature249 的 excel 文件，并且都是浮点数（总共 250 个功能和 7000 个数据点）。并用相应的类值标记列。有 5 个独特的类别 (0-4)。没有可用的数据字典。我必须在 train.csv 上训练模型并计算来自 test.csv 的数据的最可能的类标签。使用 Python。

问题 1：我可以在 Python 中使用哪种算法，因为我是新手。有没有可以重用代码的模板或 github 链接？我观察到所有类中的数据分布是均匀的。

问题 2：我可以使用哪个包从 250 个变量中选择重要变量。因为我将在本地进行培训。

问题 3：如何检查每个变量的分布？这样我就可以从数据中删除异常值和空值。 Python中的任何包可以自动执行此操作吗？

我的发现：

我试图从这个链接开始： http://scikitlearn.org/stable/modules/neural_networks_supervised.html#classification

在这一行

  scaler.fit(X_train)

X_train的类型是什么，是numpy数组。既然我在 excel 文件中有值，我是否将其带入 NUMpy 格式？

注意：由于我是多类分类问题的新手，所以我没有发布解决方案。任何帮助将不胜感激，而不是给出“-1”

【问题讨论】：

标签： python-3.x

【解决方案1】：

您可以通过本网站根据您的需要选择您的算法：python/scikit-learn

网站上有详细的算法说明和使用示例。

对于您的其他需求，您可以使用 Pandas 和 Numpy 模块：

stackoverflow/detect-and-exclude-outliers-in-pandas-dataframe

顺便说一下，为了拟合，你的 X_train 类型应该是 Numpy 数组。

您可以从 csv 文件中读取数据，将它们存储在 Python 列表中，然后通过 np.asarray(list) 或简单地将该列表转换为 Numpy 数组：stackoverflow/how-to-read-csv-into-record-array-in-numpy

【讨论】：

这没有给出合适的结果，请在stackoverflow.com/questions/49514425/…查看我的输出

猜你喜欢

2018-05-13
2020-01-19
2018-05-02
2020-07-11
2017-09-27
1970-01-01
2016-12-16
2020-12-12
2019-12-10

相关资源

下载 2023-03-21
下载 2023-01-04
下载 2022-12-18

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode