【发布时间】:2021-05-11 06:51:05
【问题描述】:
我正在使用sickit-learn Latent Dirichlet Allocation 进行主题建模。 lda_object 适合文本语料库。现在,我们将其拟合到一个文本中以了解它的主题权重。
def append_lda_features(df, lda_vectorizer, tfidf+vector):
from time import time
st = time()
lda_vector = lda_vectorizer.transform(tfidf_vector)
print(time() - st)
lda_vector = pd.DataFrame(lda_vector)
lda_vector.columns = ['lda_word_'+str(i)
for i in range(lda_vectorizer.n_components)]
return pd.concat([df, lda_vector], axis=1)
这是在0.67 秒左右的打印值,非常高。考虑到我的 lda 只包含 15 个组件,而 vectorizer 有 100000 个标记:
LatentDirichletAllocation(n_components=15, n_jobs=30, verbose=1)
我应该怎么做才能让 LDA 工作得更快?
【问题讨论】:
标签: performance scikit-learn lda topic-modeling