【问题标题】:Do you have to clean your test data before feeding into an NLP model?在输入 NLP 模型之前,您是否必须清理您的测试数据?
【发布时间】:2021-05-23 20:17:48
【问题描述】:

这是一个自然语言处理相关的问题。

假设我有一个标记的火车和未标记的测试集。在我清理了我的训练数据(停用词、词干、标点符号等)后,我使用这些清理过的数据来构建我的模型。

在我的测试数据上拟合它时,我是否还必须使用与我的训练集相同的方式来清理测试数据文本?还是我不应该完全接触测试数据。

谢谢!

【问题讨论】:

  • 训练数据和测试数据的数据清洗管道通常是相同的

标签: python nlp data-science text-processing train-test-split


【解决方案1】:

是的,您应该对您的训练和测试数据集进行完全相同的预处理。

【讨论】:

    【解决方案2】:

    是的,数据清理是机器学习或 NLP 问题中的强制性步骤。 因此,您必须始终首先清理我们的数据,然后只需将其提供给模型。

    注册。测试和训练数据清理 --> 你可以清理这两个数据,这样做没有害处。

    【讨论】:

      猜你喜欢
      • 2018-06-11
      • 1970-01-01
      • 1970-01-01
      • 2020-02-03
      • 1970-01-01
      • 2012-03-12
      • 2016-04-26
      • 2020-06-22
      • 1970-01-01
      相关资源
      最近更新 更多