【发布时间】:2019-02-07 17:57:45
【问题描述】:
我有一个包含数千个 90 维的 doc2vec 向量的数组。对于我目前的目的,我想找到一种方法来“采样”这个向量空间的不同区域,以了解语料库的多样性。例如,我想将我的空间划分为 n 个区域,并为每个区域获取最相关的词向量。
我曾尝试使用 hdbscan 进行聚类(在使用 UMAP 降低维度之后)以在其自然关节处划分向量空间,但它确实效果不佳。
所以现在我想知道是否有办法对空间的“遥远区域”(n 个彼此相距最远的向量)进行采样。
- 这是个好策略吗?
- 我该怎么做?
非常感谢!
【问题讨论】:
标签: python vector cluster-analysis doc2vec dimensionality-reduction