【发布时间】:2015-07-03 07:49:41
【问题描述】:
我的数据集中有 11 个类/类别。对于每个类,都有一些分配给它的实例。我需要知道 Weka 为每个类别提取的属性/单词以及分配给每个属性的数值。有没有办法做到这一点?
【问题讨论】:
标签: weka document-classification
我的数据集中有 11 个类/类别。对于每个类,都有一些分配给它的实例。我需要知道 Weka 为每个类别提取的属性/单词以及分配给每个属性的数值。有没有办法做到这一点?
【问题讨论】:
标签: weka document-classification
这是 Weka TRAINING 和 CLASSIFY 的 arff 文件格式示例:
在这种情况下,我说的是在Semeval 2014 西班牙比赛中使用的部分文件......
@relation Task10EnglishS2014
@attribute PathLenAlign numeric
@attribute ResAlign numeric
@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,5.000
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,5.000
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,0.300
...
零碎:
@relation Task10EnglishS2014
@relation + 集合或实验的名称
@attribute LcAlign numeric
@attribute + 属性名称 + 属性类型
@data
从这里开始每个输入的值的实例或向量。
这是训练集,用于训练模型以对新实例进行分类。 在 Weka 资源管理器中,我们需要在 Preprocess 选项卡中加载此文件。它们在 Classify 选项卡中,您需要选择一个分类器并设置 Cross-validation with 10 Folds,然后单击 Start 按钮。这将生成一个经过训练的模型。
arff分类文件必须具有以下结构:
@relation Task10EnglishS2014
@attribute PathLenAlign numeric
@attribute ResAlign numeric
@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,?
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,?
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,?
...
那个? simbol 表示这是要分类的值。
您必须选择选项:“提供的测试集”并选择要分类的文件,然后在“模式选项...”中选择“输出预测”,然后右键单击模型并选择“重新评估模型”当前测试集”。 在右侧面板中显示了结果。
【讨论】: