【问题标题】:How to generate pertinent text? [closed]如何生成相关文本? [关闭]
【发布时间】:2013-09-17 02:50:55
【问题描述】:

我想要做的是,获得一个文本训练集(自然语言),并使用自动创建的文本来增加这个集,试图模仿文本内容。我使用的是词袋假设,顺序无关紧要,语法无关紧要,我只想创建包含与基本主题相关的单词的文本。

现在我正在使用 Latent Dirichlet Allocation 将我的文档分类为主题分布,平均我的集合的主题分布,并根据这些主题分布生成文档。

我想知道两件事:

1- 有更好的方法吗?

2- 我可以用不属于我的集合域的文本来训练 LDA, 不污染我的话题:例如。我想增加的集合有 关于政治的文本。我可以用任何类型的文本训练我的模型吗 (汽车、时尚、音乐)和分类我的政治文本库获取其主题分布并从该分布生成类似的文本。

我正在使用 python 2.7 和 gensim。

【问题讨论】:

  • 你的问题对我来说太模糊了。如果您不关心单词顺序,那么您只是在生成随机的单词集合,这些单词对人类来说并不像句子和段落那样有意义。在这种情况下,您究竟如何评价针对性?要么需要对我们可用的相关性进行更精确的定义,要么您需要告诉我们您对生成的词袋做了什么,以便我们确定需要优化的内容。跨度>
  • 你只需要生成一个带有 n-gram 的马尔可夫语言模型,然后通过计算下一个单词的最高概率开始随机选择连续的单词。

标签: algorithm language-agnostic nlp probability-theory gensim


【解决方案1】:

NLTK's generate() function 可能就是您要找的。​​p>

来自the docs

generate(length=100)

打印随机文本,使用 三元语言模型。

参数:

length (int) – 要生成的文本长度(默认=100)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-04
    • 2016-04-24
    • 1970-01-01
    • 2018-02-01
    • 2019-07-10
    • 1970-01-01
    相关资源
    最近更新 更多