【发布时间】:2020-10-29 07:27:09
【问题描述】:
我有一个包含 100,000 条记录的数据集
此数据集中的数据为 2 列 1-文本 2-类
当我应用我的模型的 BOW 时,我会得到一大堆功能
没关系,我设法与他们合作
我的问题是在构建模型和部署之后。
现在,如果新文本带有新单词,那么模型将无法工作,因为它在相同的特征结构中工作
示例 “这是一个测试,测试很重要”,Red “亚当通过考试”,格林
所以我的最终数据集是
This is a test important Adam pass class
1 2 1 2 1 0 0 Red
0 0 1 1 0 1 1 Green
一旦模型创建并获得此文本
“测试和考试相似”,黄色
在这种情况下,这组功能具有新功能
和考试类似
模型会破坏,因为这些功能从未包含在训练模型中
我想知道如何解决这个问题?
【问题讨论】:
标签: machine-learning nlp feature-extraction