【发布时间】:2018-10-10 21:40:39
【问题描述】:
我正在使用 K-Means 从文本中提取主题。我知道这不是最好的方法,但这只是迈向更复杂模型的一步。让我感到困惑的是我得到的肘部曲线(下图)。你会如何解释它?为什么会在 50 K 左右突然出现峰值?还是肘部方法在处理文本时真的不起作用?
from sklearn.cluster import MiniBatchKMeans
wcse = []
for k in range(5, 100, 5):
kmeans_model = MiniBatchKMeans(n_clusters=num_clusters, init='k-means++', n_init=1,
init_size=1000, batch_size=1000, verbose=False, max_iter=1000)
kmeans = kmeans_model.fit(X) # where X is my data
wcse.append(kmeans_.inertia_)
#plot it
fig = plt.figure(figsize=(15, 5))
plt.plot(range(5, 100, 5), wcse)
plt.grid(True)
plt.title('Elbow curve')
【问题讨论】:
标签: python machine-learning scikit-learn cluster-analysis k-means