【问题标题】:How should I weight an N-gram sentence generator so that it doesn't favor short sentences?我应该如何对 N-gram 句子生成器进行加权,使其不支持短句?
【发布时间】:2011-12-20 23:05:39
【问题描述】:

我正在写一个 n-gram 句子比较/生成脚本。该模型非常偏爱较短的句子,有什么快速建议可以让我更重视较长的句子吗?

【问题讨论】:

  • 可能模型包含句尾符号。减轻它的重量。或者,在其训练数据中添加更多较长句子的副本。
  • “因为”之后应该有更多的文字吗?
  • @DonReba 不抱歉,在编辑时不小心把它留在了里面。

标签: artificial-intelligence nlp


【解决方案1】:

假设您计算每个 n-gram 的分数并根据这些分数对 n-gram 进行排名,您可以通过为 n 的每个值应用不同的标量权重来调整这些 n-gram 的分数,例如 @987654323 @,其中v[0] 将应用于一个n-gram,其中n == 1。这样的向量可以通过测量一组代表性解决方案 n-gram 的相对频率从更大的文本语料库中确定(例如,如果您正在寻找句子,则为每个句子计算 n,计算每个值的频率n,并根据该数据创建一个 probability distribution

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-01-05
    相关资源
    最近更新 更多