【发布时间】:2016-07-11 09:39:10
【问题描述】:
我必须实现一个模块,在该模块中我需要将具有相似含义的句子(字符串)分组到不同的集群中。我读到了 k-means 、 EM 聚类等。但我面临的问题是这些算法是用图上的向量点来解释的。我不知道如何为具有相似含义的句子(字符串)实现这些算法。请提出一些合适的方法。
例如, 让我们考虑一个课堂场景.. 1) 教师知识渊博。 2) 学生明白老师教什么。 3) 老师有时上课准时。 4) 老师在课堂上可以听到。
假设我们有这 4 个句子。然后看着它们,我们可以说句子 1 和 2 具有相似的含义。但是第 3 句和第 4 句既不相互关联,也不与前两个相关。这样,我需要对句子进行分类。那么如何实现呢?
【问题讨论】:
-
这是一个大问题。我认为 Google 在 Udacity 上的“深度学习”课程提供了一个很好且免费的使用
tensorflow和 python 进行文本挖掘的介绍。 -
我认为这个问题没有一个最佳答案,因此我投票决定将其关闭,因为它过于宽泛。话虽如此 - 看看“Word to Vector”或“Word Embedding”模型,它们在该领域表现出很大的潜力。
标签: algorithm machine-learning pattern-matching cluster-analysis data-mining