在输入 NLP 模型之前，您是否必须清理您的测试数据？答案

【问题标题】：Do you have to clean your test data before feeding into an NLP model?在输入 NLP 模型之前，您是否必须清理您的测试数据？
【发布时间】：2021-05-23 20:17:48
【问题描述】：

这是一个自然语言处理相关的问题。

假设我有一个标记的火车和未标记的测试集。在我清理了我的训练数据（停用词、词干、标点符号等）后，我使用这些清理过的数据来构建我的模型。

在我的测试数据上拟合它时，我是否还必须使用与我的训练集相同的方式来清理测试数据文本？还是我不应该完全接触测试数据。

谢谢！

【问题讨论】：

训练数据和测试数据的数据清洗管道通常是相同的

标签： python nlp data-science text-processing train-test-split

【解决方案1】：

是的，您应该对您的训练和测试数据集进行完全相同的预处理。

【讨论】：

【解决方案2】：

是的，数据清理是机器学习或 NLP 问题中的强制性步骤。因此，您必须始终首先清理我们的数据，然后只需将其提供给模型。

【讨论】：