【发布时间】:2020-10-05 15:20:27
【问题描述】:
假设我已经对一些文本数据进行了预处理,去除了停用词、网址等。
我应该如何构建这些清理后的数据,以使它们可用于神经网络等分类器?是否有首选结构或经验法则? (词袋,tf-idf 或其他什么?)另外,你能推荐一些包,它会自动在 python 中完成所有工作吗?
现在我训练模型,一切正常。 该模型在测试集上也表现良好。
我必须如何处理看不见的数据? 当我决定在现实生活项目中实施模型时,它会遇到新数据:我是否必须存储用于训练的结构(如 tf-idf 结构)并将其应用于这些新数据? 另外,假设在训练/验证/测试数据中没有“你好”这个词,所以它没有表示。我必须分类的一个现实生活中的句子包含“你好”这个词 我该如何处理这个问题?
感谢所有的澄清。
【问题讨论】:
-
tensorflow.org/tutorials/text/word_embeddings 应该会提供您的大部分答案
标签: python tensorflow nlp tf-idf