【发布时间】:2020-06-15 07:55:12
【问题描述】:
我一直在尝试使用该作者撰写的多篇文本对作者进行分类,然后我将使用这些文本在其他文本中找到相似之处,以在测试组中识别该作者。
我已经成功进行了一些预测,但是我仍然得到了无法预测作者的结果。
我已经预先对文本进行了预处理,包括词干、标记、停用词、删除标点符号等,以使其更准确。
我不熟悉 OneClassSVM 参数的工作原理。我可以使用哪些参数来最适合我的问题?如何让我的模型在预测中更加准确?
这是我目前所拥有的:
vectorizer = TfidfVectorizer()
author_corpus = self.pre_process(author_corpus)
test_corpus = self.pre_process(test_corpus)
train = author_corpus
test = test_corpus
train_vectors = vectorizer.fit_transform(train)
test_vectors = vectorizer.transform(test)
model = OneClassSVM(kernel='linear', gamma='auto', nu=0.01)
model.fit(train_vectors)
test_predictions = model.predict(test_vectors)
print(test_predictions[:10])
print(model.score_samples(test_vectors)[:10])
【问题讨论】:
标签: python-3.x machine-learning scikit-learn text-classification one-class-classification