如何处理 NLP 问题中的预处理和看不见的数据？答案

【问题标题】：How do I deal with preprocessing and with unseen data in a NLP problem?如何处理 NLP 问题中的预处理和看不见的数据？
【发布时间】：2020-10-05 15:20:27
【问题描述】：

假设我已经对一些文本数据进行了预处理，去除了停用词、网址等。

我应该如何构建这些清理后的数据，以使它们可用于神经网络等分类器？是否有首选结构或经验法则？（词袋，tf-idf 或其他什么？）另外，你能推荐一些包，它会自动在 python 中完成所有工作吗？

现在我训练模型，一切正常。该模型在测试集上也表现良好。

我必须如何处理看不见的数据？当我决定在现实生活项目中实施模型时，它会遇到新数据：我是否必须存储用于训练的结构（如 tf-idf 结构）并将其应用于这些新数据？另外，假设在训练/验证/测试数据中没有“你好”这个词，所以它没有表示。我必须分类的一个现实生活中的句子包含“你好”这个词我该如何处理这个问题？

感谢所有的澄清。

【问题讨论】：

tensorflow.org/tutorials/text/word_embeddings 应该会提供您的大部分答案

标签： python tensorflow nlp tf-idf

【解决方案1】：

你可以做什么来创建一个类并在里面定义函数

导入数据集
数据清洗
数据预处理（BOW，TfIDf）
模型构建
预测

您可以从下面的代码中跟进了解

https://github.com/azeem110201/lifecycledatascienceproject

【讨论】：