计算文档的置信度分数答案

【问题标题】：Calculate confidence score of document计算文档的置信度分数
【发布时间】：2018-02-23 15:16:55
【问题描述】：

使用不同的方法，我正在对文档及其标题进行评分。现在我想将所有这些分数汇总成一个分数（信心分数）。我想使用无监督的方法。我想要概率或百分比的置信度分数。

这里，M= 方法号，TS = 文档标题分数，CS = 文档内容分数

例如 1

Doc1（预期置信度得分接近 0）

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2（预期置信度得分接近 1）

M - TS - CS

1 - 0.50 - 0.63

2 - 0.74 - 0.90

3 - 0.615 - 0.833

这里我的假设是文档 1 的置信度分数应该接近于零，文档 2 的置信度分数应该接近 1。

也有可能所有文档的所有方法的分数都较低（例如 2），因此所有文档的置信度分数应该接近于零。

例如.2

Doc1（预期置信度得分接近 0）

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2（预期置信度得分接近 0）

M - TS - DS

1 - 0.001 - 0.003

2 - 0.004 - 0.005

3 - 0.0021 - 0.013

谁能解释我或提供一些资源来计算置信度分数？

【问题讨论】：

【解决方案1】：

如何将所有方法的标题分数（因为它们在相同的量表上）和内容分数相加/取平均值，这样现在您将拥有一个标题分数和一个内容分数。

要获得文档的单一分数，您必须结合标题和内容分数。为此，您可以采用加权平均值（您必须确定权重），或者您可以将这些分数相乘以获得单个指标。虽然这些可能不会接近零或一，但您的要求是

作为一种替代方法，您可以使用添加/平均的标题分数和内容分数创建数据集，并手动创建带有零和一的置信度分数列。使用这些数据，您可以构建逻辑回归模型，以零和一的置信度分数对文档进行分类。这也将为您提供权重，并更深入地了解您实际寻找的内容

【讨论】：

感谢@Clock Slave，目前我正在尝试使用加权平均，逻辑回归应该使用多少近似数据？
你有两列，所以我猜你可以使用 50-100 行。
非常感谢时钟奴隶。
另外，请记住，您在置信度得分列中的零和一的数量是平衡的。如果您有 95 个 0 和 5 个 1，那么您的模型将不会表现得那么好，您必须执行一系列其他步骤才能获得良好的结果。