【问题标题】:How to make OneClassSVM model more accurate? (Scikit-learn)如何让 OneClassSVM 模型更准确? (Scikit-学习)
【发布时间】:2020-06-15 07:55:12
【问题描述】:

我一直在尝试使用该作者撰写的多篇文本对作者进行分类,然后我将使用这些文本在其他文本中找到相似之处,以在测试组中识别该作者。

我已经成功进行了一些预测,但是我仍然得到了无法预测作者的结果。

我已经预先对文本进行了预处理,包括词干、标记、停用词、删除标点符号等,以使其更准确。

我不熟悉 OneClassSVM 参数的工作原理。我可以使用哪些参数来最适合我的问题?如何让我的模型在预测中更加准确?

这是我目前所拥有的:

vectorizer = TfidfVectorizer()

author_corpus = self.pre_process(author_corpus)
test_corpus = self.pre_process(test_corpus)

train = author_corpus
test = test_corpus

train_vectors = vectorizer.fit_transform(train)

test_vectors = vectorizer.transform(test)

model = OneClassSVM(kernel='linear', gamma='auto', nu=0.01)

model.fit(train_vectors)

test_predictions = model.predict(test_vectors)

print(test_predictions[:10])

print(model.score_samples(test_vectors)[:10])

【问题讨论】:

    标签: python-3.x machine-learning scikit-learn text-classification one-class-classification


    【解决方案1】:

    我在 Coursera 上听到了关于 Andrew Ng 的深度学习课程的正面评价。我通过 edx 上的 Microsoft 人工智能专业认证了解了我对人工智能的所有了解。

    【讨论】:

      【解决方案2】:

      您可以使用 SVM,但深度学习非常适合此用途。我参加了一场 Kaggle 比赛,对文档进行分类,这对我来说非常棒。

      如果您认为自己的数据集不够大,您可能只想采用文本分类器模型并重新训练作者的最后一层,然后微调模型的其余部分。

      【讨论】:

      • 感谢您的回答。我对深度学习不是很熟悉。您是否有任何指南或资源可以用来帮助我建立作者归属的深度学习模型?
      猜你喜欢
      • 2016-12-20
      • 2013-10-24
      • 2021-09-22
      • 2014-04-18
      • 2018-06-04
      • 2018-06-29
      • 2016-12-29
      • 2019-02-07
      • 2014-12-27
      相关资源
      最近更新 更多