【发布时间】:2017-01-16 03:03:53
【问题描述】:
我需要一个 weka 训练文件 (arff) 来包含一个名称 (String) 和一个与该名称关联的字符串数组,以便分类器在我对任何文本运行时将名称与这些字符串相关联。对于这个任务,我如何在 weka 中创建一个字符串数组的属性?或者有没有其他方法可以做到这一点?
(我使用的是朴素贝叶斯分类器)
例如: Deepika Shah,贪婪的读者,有趣,漂亮
因此,如果我有一个包含上面给出的任何与 Deepika Shah 的字符串的句子,它应该将该句子归类为关于 Deepika Shah。
编辑: 我需要使用句子中的单词和短语将句子分类为关于名称的句子。所以我给出了一组与名称相关联的字符串以及它们与什么名称相关联。分类器应该从句子中找到类别。或者,在我从句子中提取特征之后(假设我已经提取了特征)。
【问题讨论】:
-
那么你的名字是你想要为字符串数组预测的类吗?能否请您提供至少一个示例,以便我们清楚地了解。
-
是的,名字就是类。
-
然后在你的字符串数组上使用 StringToWordVector 过滤器(我想你的字符串数组是单词数组,比如说“你是个好人”)。在 StringToWordvector 类中,您可以将字符串数组(由一个或多个单词组成的句子)转换为 N-gram,您可以通过 Tokenizer 类指定 N 的任何值。您需要将字符串数组指定为字符串属性 n arff 文件。在 arff 文件的引号中包含它的值('You are a nice guy')。如果您无法理解此评论,请告诉我,我将在答案部分提供详细分析。
-
是的,我不太明白你的回答。另外,我的字符串数组是示例中的“贪婪的读者”、“有趣的”、“漂亮的”部分,Deepika Shah 是类。
-
真的是分类任务吗?类属性有多少个值?请您详细说明您的问题,并提供训练和测试集的详细信息。
标签: java string classification weka arff