【发布时间】:2020-12-17 08:57:11
【问题描述】:
在使用 Spacy、Bert 或其他高级 NLP 模型获取文本的向量嵌入时,是否需要去除停用词、词干和词形还原?
text="婚礼上的食物非常好吃"
1. 由于 Spacy,Bert 是在庞大的原始数据集上进行训练的,在使用 bert/spacy 进行文本分类任务生成嵌入之前,对这些文本应用停用词去除、词干和词形还原有什么好处吗?
2.当我们使用countvectorizer,tfidf vectorizer来获得句子的嵌入时,我可以理解停用词去除,词干和词形还原会很好。
【问题讨论】:
-
您可以测试看看是否进行词干化和停用词删除有帮助。并非总是如此。如果我要绘制图表,我通常会这样做,因为停用词会使结果变得混乱。
标签: nlp spacy text-classification bert-language-model