【发布时间】:2016-02-25 11:23:57
【问题描述】:
我目前有两个单独的 ARFF 文件用于我正在编写的使用 WEKA 机器学习算法的 Java 程序。这两个文件的格式为:
@attribute movieID numeric
@attribute title {whole, host, of, movie, titles}
@attribute genres {whole, list, of, genres}
和
@attribute movieID numeric
@attribute tags {very, long, list, of, possible, tags}
@attribute timestamp numeric
在一个理想的世界中,我希望通过他们的电影 ID“加入”这两个文件,以便将相关标签分配给电影,但我不确定这是否可能?进行了相当古老的搜索后,我不确定如何进行此操作,或者通常不确定如何创建单个数据集以与具有研究关联规则的程序的其余部分一起使用。任何帮助将不胜感激
【问题讨论】:
-
这不是一个非常复杂的解决方案,但我会在 Weka 中将两个 ARFF 文件转换为 .csv。然后使用 Excel 或类似的东西,我会打开每个文件并对电影 ID 进行排序,然后通过复制不同的列来简单地组合这两个文件。之后,我会使用 Weka 读取 csv 并重新保存为 .arff。
标签: java merge weka data-processing arff