【发布时间】:2013-10-22 01:14:12
【问题描述】:
首先,感谢您阅读这篇文章。
在机器学习方面我是个菜鸟,我正在尝试使用 ML 对一些数据进行分类。现在我已经完成了一些有监督和无监督学习算法的基本阅读,例如决策树、聚类、神经网络等。
我正在努力理解的是为 ML 问题准备数据集的正确整体过程。
如何为机器学习准备数据集,以便衡量算法的准确性?
我目前的理解是,为了评估准确性,应该为算法提供预先标记的结果(来自数据集的重要子集?),以便评估预期结果与算法决策之间的差异?
如果这是正确的,那么如何对大型数据集进行预标记?我的数据集很大,手动标注不可行。
另外,任何有关在 Python 中进行机器学习的技巧都将不胜感激!
非常感谢您提前提供的帮助!
最好的问候,
迈克
【问题讨论】:
-
这是一个非常广泛的问题。标记/注释数据很昂贵:研究人员支付学生费用,支付 Mechanical Turk 上的匿名陌生人,并且可能使用一堆我不熟悉的其他方法。使用标准数据集进行了大量研究,以 a) 实现技术之间的定量比较 b) 不必担心标签...... 987654322@
-
感谢 E. Mechanical Turk 先生是个好人!
标签: python machine-learning data-analysis statistics