【发布时间】:2017-12-15 06:44:04
【问题描述】:
我正在尝试对一堆(大约 140 个)文本文档进行文本分析。每个文档经过预处理和去除不必要的单词和停用词后,大约有 7000 个句子(由 nlkt 的句子分词器确定),每个句子平均大约有 17 个单词。我的工作是在这些文档中找到隐藏的主题。
我曾考虑过进行主题建模。但是,我无法确定我拥有的数据是否足以通过 LDA 获得有意义的结果,或者我还能做些什么。
另外,如何将文本分成不同的文档? 140 个文档(每个文档大约 7000 x 17 个单词)是否足够?或者我应该将每个句子视为一个文件。但是每个文档平均只有 17 个单词;很像推文。
任何建议都会有所帮助。 提前致谢。
【问题讨论】:
标签: python-3.x nlp gensim text-analysis