我应该如何对 N-gram 句子生成器进行加权，使其不支持短句？

【问题标题】：How should I weight an N-gram sentence generator so that it doesn't favor short sentences?我应该如何对 N-gram 句子生成器进行加权，使其不支持短句？
【发布时间】：2011-12-20 23:05:39
【问题描述】：

我正在写一个 n-gram 句子比较/生成脚本。该模型非常偏爱较短的句子，有什么快速建议可以让我更重视较长的句子吗？

【问题讨论】：

可能模型包含句尾符号。减轻它的重量。或者，在其训练数据中添加更多较长句子的副本。
“因为”之后应该有更多的文字吗？
@DonReba 不抱歉，在编辑时不小心把它留在了里面。

标签： artificial-intelligence nlp

【解决方案1】：

假设您计算每个 n-gram 的分数并根据这些分数对 n-gram 进行排名，您可以通过为 n 的每个值应用不同的标量权重来调整这些 n-gram 的分数，例如 @987654323 @，其中v[0] 将应用于一个n-gram，其中n == 1。这样的向量可以通过测量一组代表性解决方案 n-gram 的相对频率从更大的文本语料库中确定（例如，如果您正在寻找句子，则为每个句子计算 n，计算每个值的频率n，并根据该数据创建一个 probability distribution。

【讨论】：