【发布时间】:2021-09-16 07:42:07
【问题描述】:
我有一个用例,我必须在大约 200k+ 的大数据集上进行聚类。我使用的是 KMeans,但我在使用 KMeans 时遇到了很大的问题。
假设我训练了一个 KMeans 模型并准备好预测集群。
现在,我正在发送一个输入 `
"(&)=hexvahamje"
这只是嵌入的噪声文本,我确信我的 KMeans 训练数据没有这样的噪声/文本。但是当我对它进行预测时,它会将嘈杂的文本预测为某个簇 x。这对我们的用例来说是错误的。如果有一个文本差异太大,我想预测类似 cluster None 之类的东西,
对这种被预测为集群 x 的嘈杂文本进行一些控制,而我的训练数据中甚至没有任何类似的文本。
我必须有哪些选择来克服这样的问题?请帮忙。
【问题讨论】:
标签: python scikit-learn cluster-analysis k-means hierarchical-clustering