机器学习存储分类结果答案

【问题标题】：machine learning storing the classification results机器学习存储分类结果
【发布时间】：2013-11-07 21:52:02
【问题描述】：

我有一些supervised learning 任务的数据集。

我想尝试不同的statistical classifications 并将结果存储起来以供进一步分析，此外最好将分类结果存储在测试数据上以查看分类在不同示例中的成功情况。

如果有什么具体的应用来存储不同分类的结果，比如我会指定不同分类的参数，然后做分析，存储有趣的例子等等。

当然，最初的想法是使用 DB，但是当我尝试了解每个分类有多少不同的参数时，我明白会有一个非常复杂的 DB 方案。

所以在创建这样一个方案之前，我想知道是否已经创建了一些东西用于此目的。

【问题讨论】：

标签： database machine-learning

【解决方案1】：

您可以简单地将结果输出到 CSV 文件，例如格式为：

index_of_instance,classification

并将它们与代表您的参数/设计选择的文件名或目录一起存储。文件名可以代表您的参数。假设您正在运行具有 {100,200,500} 棵树和 {0,10,20} 最大深度的随机森林。您的文件名可以是 100_0.csv、200_0.csv 等。您还可以保存您所在的交叉验证折叠，例如：0_100_0.csv。这样，您以后就可以使用 unix 命令、Excel 或 R 等更多相关软件包的简单组合轻松分析结果。

【讨论】：

非常感谢您的回答，我目前所做的事情非常相似，我认为可能有更具可扩展性的解决方案，当我尝试使用许多不同参数进行许多不同分类时，数据库方法可能会有所帮助，但是每个分类的参数集都是不同的，因此很容易升级。
没问题。这个 kaggle 线程可能会有所帮助：kaggle.com/forums/t/4815/…
我做了类似的事情，但发现在文件名中提供参数的名称以及它们的值很有用，例如，trees=100,depth=10,fold=1.csv。这样一两个月后，当您返回查看数据时，您的眼睛就不会交叉。