【发布时间】:2013-03-10 00:28:23
【问题描述】:
我一直在做一些尝试 使用我自己的数据集找出专栏的作者。
我打算使用mlpy python 库。它有很好的文档, (大约 100 页 pdf)。我也对其他图书馆开放 建议。
问题是,我迷失在数据挖掘和机器学习中 概念。有太多的工作,太多的算法和 概念。
我在问路,我应该学习什么算法/概念, 并搜索我的具体问题。
到目前为止,我已经构建了一个类似这样的数据集。
| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A | 2 | 4 | 6 | .. |
| A | 1 | 1 | 5 | .. |
| B | 12 | 15 | 9 | .. |
| B | 13 | 13 | 13 | .. |
现在,我将获得一个新列并对其进行解析,之后我将拥有所有 专栏的特点,我的目标是找出谁 该专栏的作者是。
由于我不是 ML 人,我只能想到在 所有行上的特征并选择最接近的行。但我很确定 这不是我应该走的路。
我会很感激任何方向、链接、阅读等。
【问题讨论】:
标签: python machine-learning classification prediction