训练贝叶斯分类器答案

【问题标题】：Training Bayesian Classifier训练贝叶斯分类器
【发布时间】：2019-08-08 06:26:48
【问题描述】：

我正在尝试在 Python 中训练和测试贝叶斯分类器。

这些代码行来自我找到的一个示例here，但我不明白它们的作用。

train_labels = np.zeros(702)
train_labels[351:701] = 1
train_matrix = extract_features(train_dir)

测试集中后面有类似的代码块：

test_matrix = extract_features(test_dir)
test_labels = np.zeros(260)
test_labels[130:260] = 1

想知道这是做什么的以及如何将其应用于不同的分类示例？ [] 中的数字是什么意思？非常感谢

【问题讨论】：

【解决方案1】：

您的帖子中引用的示例代码正在使用朴素贝叶斯和 SVC 模型训练二元分类器。

train_labels = np.zeros(702)
train_labels[351:701] = 1
train_matrix = extract_features(train_dir)

这是为最初全为 0 的 702 条记录设置标签。并将后半部分设置为 1。二进制标签，例如：垃圾邮件或火腿、真或假等。 extract_features 构建了输入到这些模型的 {(docid, wordid)->wordcount,..}。

训练模型后，您需要查看它在测试集上的表现如何。在这里，您使用 260 条记录作为测试集，前半部分全为 0，后半部分全为 1。

test_matrix = extract_features(test_dir)
test_labels = np.zeros(260)
test_labels[130:260] = 1

最后，您针对测试集运行预测，并评估这两个模型（NB 和 SVC）与 test_set 的准确度有多接近。

【讨论】：