【发布时间】:2021-05-23 20:17:48
【问题描述】:
这是一个自然语言处理相关的问题。
假设我有一个标记的火车和未标记的测试集。在我清理了我的训练数据(停用词、词干、标点符号等)后,我使用这些清理过的数据来构建我的模型。
在我的测试数据上拟合它时,我是否还必须使用与我的训练集相同的方式来清理测试数据文本?还是我不应该完全接触测试数据。
谢谢!
【问题讨论】:
-
训练数据和测试数据的数据清洗管道通常是相同的
标签: python nlp data-science text-processing train-test-split