如何生成相关文本？ [关闭]答案

【问题标题】：How to generate pertinent text? [closed]如何生成相关文本？ [关闭]
【发布时间】：2013-09-17 02:50:55
【问题描述】：

我想要做的是，获得一个文本训练集（自然语言），并使用自动创建的文本来增加这个集，试图模仿文本内容。我使用的是词袋假设，顺序无关紧要，语法无关紧要，我只想创建包含与基本主题相关的单词的文本。

现在我正在使用 Latent Dirichlet Allocation 将我的文档分类为主题分布，平均我的集合的主题分布，并根据这些主题分布生成文档。

我想知道两件事：

1- 有更好的方法吗？

2- 我可以用不属于我的集合域的文本来训练 LDA，不污染我的话题：例如。我想增加的集合有关于政治的文本。我可以用任何类型的文本训练我的模型吗（汽车、时尚、音乐）和分类我的政治文本库获取其主题分布并从该分布生成类似的文本。

我正在使用 python 2.7 和 gensim。

【问题讨论】：

你的问题对我来说太模糊了。如果您不关心单词顺序，那么您只是在生成随机的单词集合，这些单词对人类来说并不像句子和段落那样有意义。在这种情况下，您究竟如何评价针对性？要么需要对我们可用的相关性进行更精确的定义，要么您需要告诉我们您对生成的词袋做了什么，以便我们确定需要优化的内容。跨度>
你只需要生成一个带有 n-gram 的马尔可夫语言模型，然后通过计算下一个单词的最高概率开始随机选择连续的单词。

【解决方案1】：

NLTK's generate() function 可能就是您要找的。p>

来自the docs：

generate(length=100)

打印随机文本，使用三元语言模型。

参数：

length (int) – 要生成的文本长度（默认=100）

【讨论】：