【发布时间】:2012-11-06 21:13:57
【问题描述】:
我有一个具有“n 到 m”关系的数字数据集(作为数据库表)。例如:
A | B
-----
1 | 1
1 | 2
1 | 9
4 | 2
7 | 8
7 | 11
我想“训练”一个分类器(使用 weka?)来告诉我哪个 A 最有可能成为一组 B。举个例子:[1,2,8] 应该告诉我一些类似于 {1:2, 4:1, 7:1} 的内容,即:“该集合在 A N 次被发现”
我当然可以用 sql 和我最喜欢的脚本语言来实现它。但是,我想知道是否有更多 - 我猜是“正式的” - 方式来做到这一点。我有 weka 运行,并且我连接了我的数据库,但是我迷失了要采用哪个分类器(许多拒绝服务),我也非常感谢一些理论背景的链接(例如它叫什么我喜欢做的事情和存在哪些改进)。
如果您在 R 中更通用,我也会欣赏“R”方式。(但是,我不仅对解决我的问题感兴趣,而且对了解这是什么类型的问题感兴趣 - 我会通过 weka 解决方案。)如果这是一个重复的问题,我很抱歉,但遗憾的是我缺乏指定我在这里寻找的信息的信息。可视化和其他学习和研究的输出会很棒,你。
提前感谢您的阅读,希望您能提供帮助。
【问题讨论】:
-
我可以通过删除重复的 B 来减少数据的“m 到 n”性质,但是这应该是可选的。当然,我可以重新组织我的数据。
标签: r weka numerical classification