【发布时间】:2013-09-17 02:50:55
【问题描述】:
我想要做的是,获得一个文本训练集(自然语言),并使用自动创建的文本来增加这个集,试图模仿文本内容。我使用的是词袋假设,顺序无关紧要,语法无关紧要,我只想创建包含与基本主题相关的单词的文本。
现在我正在使用 Latent Dirichlet Allocation 将我的文档分类为主题分布,平均我的集合的主题分布,并根据这些主题分布生成文档。
我想知道两件事:
1- 有更好的方法吗?
2- 我可以用不属于我的集合域的文本来训练 LDA, 不污染我的话题:例如。我想增加的集合有 关于政治的文本。我可以用任何类型的文本训练我的模型吗 (汽车、时尚、音乐)和分类我的政治文本库获取其主题分布并从该分布生成类似的文本。
我正在使用 python 2.7 和 gensim。
【问题讨论】:
-
你的问题对我来说太模糊了。如果您不关心单词顺序,那么您只是在生成随机的单词集合,这些单词对人类来说并不像句子和段落那样有意义。在这种情况下,您究竟如何评价针对性?要么需要对我们可用的相关性进行更精确的定义,要么您需要告诉我们您对生成的词袋做了什么,以便我们确定需要优化的内容。跨度>
-
你只需要生成一个带有 n-gram 的马尔可夫语言模型,然后通过计算下一个单词的最高概率开始随机选择连续的单词。
标签: algorithm language-agnostic nlp probability-theory gensim