【问题标题】:Python libs for text segmentation用于文本分割的 Python 库
【发布时间】:2016-05-06 04:10:37
【问题描述】:

任何人都可以建议用于文本分割的好方法和/或库吗?

例如我有一组二元组或三元组。然后我想说,这些二元组指的是一个集群,那些指的是那个集群等等。

集群化后,我会手动命名这些集群。

我需要像字典一样创建 smth 来将文本 cmet 分类(“抱怨”、“垃圾邮件”等)...

____已编辑____

我已停止使用 gensim lib 和 LDA 建模进行搜索。效果很好

【问题讨论】:

  • 要求我们推荐或查找书籍、工具、软件库、教程或其他场外资源的问题对于 Stack Overflow 来说是题外话,因为它们往往会吸引固执己见答案和垃圾邮件。相反,describe the problem 以及迄今为止为解决它所做的工作。
  • 我看到很多关于nltk的问题。这可能意味着它很受欢迎,或者可能意味着它很难使用。 ;-)
  • 是的,问题很笼统,但我的问题是找到一个好的算法。我现在不能更准确地指定它

标签: python scipy scikit-learn cluster-computing semantics


【解决方案1】:

nltk 或 Natural Language Toolkit 是在 Python 中处理文本的首选工具。这将处理您项目的细分方面。

具体来说,您可能对tokenize 模块感兴趣! See the documentation for more details.

【讨论】:

  • 现在我正在与 gensim lib 取得联系。我会检查结果
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-05-02
  • 1970-01-01
  • 1970-01-01
  • 2017-12-15
相关资源
最近更新 更多