【问题标题】:How do I deal with preprocessing and with unseen data in a NLP problem?如何处理 NLP 问题中的预处理和看不见的数据?
【发布时间】:2020-10-05 15:20:27
【问题描述】:

假设我已经对一些文本数据进行了预处理,去除了停用词、网址等。

我应该如何构建这些清理后的数据,以使它们可用于神经网络等分类器?是否有首选结构或经验法则? (词袋,tf-idf 或其他什么?)另外,你能推荐一些包,它会自动在 python 中完成所有工作吗?

现在我训练模型,一切正常。 该模型在测试集上也表现良好。

我必须如何处理看不见的数据? 当我决定在现实生活项目中实施模型时,它会遇到新数据:我是否必须存储用于训练的结构(如 tf-idf 结构)并将其应用于这些新数据? 另外,假设在训练/验证/测试数据中没有“你好”这个词,所以它没有表示。我必须分类的一个现实生活中的句子包含“你好”这个词 我该如何处理这个问题?

感谢所有的澄清。

【问题讨论】:

标签: python tensorflow nlp tf-idf


【解决方案1】:

你可以做什么来创建一个类并在里面定义函数

  1. 导入数据集
  2. 数据清洗
  3. 数据预处理(BOW,TfIDf)
  4. 模型构建
  5. 预测

您可以从下面的代码中跟进了解

https://github.com/azeem110201/lifecycledatascienceproject

【讨论】:

    猜你喜欢
    • 2019-08-19
    • 1970-01-01
    • 2016-12-23
    • 1970-01-01
    • 2019-02-21
    • 1970-01-01
    • 2018-01-14
    • 2019-07-23
    • 2022-11-17
    相关资源
    最近更新 更多