【发布时间】:2013-06-10 23:26:43
【问题描述】:
这可能是关于可能的分类算法的新手问题,所以请多多包涵。我有一个包含名义属性和数字属性的数据集,可能看起来像下面的示例(不是实际数据集)。什么样的算法最适合断言类并获得准确性(最好在 Python/Java 中)?
Classes: classA, classB, classC
attribute1: Recurrence <Yes, No>
attribute2: Subject <Math, Science, Geography>
attribute3: ProbabilityA <0.0 - 1.0>
atrribute4: ProbabilityB <0.0 - 1.0>
attribute5: ProbabilityC <0.0 - 1.0>
标称数据可以包含[1,-1]的数值,其中1代表存在,-1不存在,也可以是一组字符串值,例如['YES', 'NO']或['类型 1'、'类型 2'、'类型 3']。数值用于表示属性的可能性。例如 [0-1],值越接近 1,越有可能评估为真。
【问题讨论】:
标签: python algorithm classification document-classification