【发布时间】:2016-05-06 04:10:37
【问题描述】:
任何人都可以建议用于文本分割的好方法和/或库吗?
例如我有一组二元组或三元组。然后我想说,这些二元组指的是一个集群,那些指的是那个集群等等。
集群化后,我会手动命名这些集群。
我需要像字典一样创建 smth 来将文本 cmet 分类(“抱怨”、“垃圾邮件”等)...
____已编辑____
我已停止使用 gensim lib 和 LDA 建模进行搜索。效果很好
【问题讨论】:
-
要求我们推荐或查找书籍、工具、软件库、教程或其他场外资源的问题对于 Stack Overflow 来说是题外话,因为它们往往会吸引固执己见答案和垃圾邮件。相反,describe the problem 以及迄今为止为解决它所做的工作。
-
我看到很多关于nltk的问题。这可能意味着它很受欢迎,或者可能意味着它很难使用。 ;-)
-
是的,问题很笼统,但我的问题是找到一个好的算法。我现在不能更准确地指定它
标签: python scipy scikit-learn cluster-computing semantics