关键词提取和基于关键词的文本分类

【问题标题】：keyword extraction and Keyword based text classification关键词提取和基于关键词的文本分类
【发布时间】：2021-03-09 02:59:38
【问题描述】：

目前我正在做一个需要关键字提取的项目，或者我们可以说基于关键字的文本分类。数据集包含 3 列文本、关键字和 cc 术语，我需要从文本中提取关键字，然后根据这些关键字对文本进行分类，数据集中的每一行都有自己的关键字，我想提取相似类型的关键字。我想通过提供文本和关键字列来训练模型，以便模型能够提取未知文本的关键字。请帮助

【问题讨论】：

标签： deep-learning keyword feature-extraction text-classification keyword-extraction

【解决方案1】：

关键字提取通常使用TF-IDF scores 完成，只需设置分数阈值即可。在训练分类器时，在某个阈值处截断关键词并没有多大意义，因为知道某物不太可能是关键词也可能对分类器来说是一条有价值的信息。

获取特定单词的 TF-IDF 分数的最简单方法是在 scikit-learn 中使用 TfIdfVectorizer，它会执行所有费力的文本预处理步骤（标记化、删除停用词）。

通过针对分类任务微调 BERT，您可能会获得更好的结果（但当然要以更高的计算成本为代价）。

【讨论】：

请，如果您认为答案是正确的，请标记它，以便其他人也知道这篇文章回答了您的问题。
感谢您回答我的问题，这对我理解这个概念很有帮助