【发布时间】:2018-09-03 13:12:19
【问题描述】:
我有一个包含 feature0 到 feature249 的 excel 文件,并且都是浮点数(总共 250 个功能和 7000 个数据点)。并用相应的类值标记列。有 5 个独特的类别 (0-4)。没有可用的数据字典。我必须在 train.csv 上训练模型并计算来自 test.csv 的数据的最可能的类标签。使用 Python。
问题 1: 我可以在 Python 中使用哪种算法,因为我是新手。有没有可以重用代码的模板或 github 链接? 我观察到所有类中的数据分布是均匀的。
问题 2: 我可以使用哪个包从 250 个变量中选择重要变量。因为我将在本地进行培训。
问题 3: 如何检查每个变量的分布?这样我就可以从数据中删除异常值和空值。 Python中的任何包可以自动执行此操作吗?
我的发现:
我试图从这个链接开始: http://scikitlearn.org/stable/modules/neural_networks_supervised.html#classification
在这一行
scaler.fit(X_train)
X_train的类型是什么,是numpy数组。既然我在 excel 文件中有值,我是否将其带入 NUMpy 格式?
注意:由于我是多类分类问题的新手,所以我没有发布解决方案。任何帮助将不胜感激,而不是给出“-1”
【问题讨论】:
标签: python-3.x