【问题标题】:Calculate confidence score of document计算文档的置信度分数
【发布时间】:2018-02-23 15:16:55
【问题描述】:

使用不同的方法,我正在对文档及其标题进行评分。现在我想将所有这些分数汇总成一个分数(信心分数)。我想使用无监督的方法。我想要概率或百分比的置信度分数。

这里,M= 方法号,TS = 文档标题分数,CS = 文档内容分数

例如 1

Doc1(预期置信度得分接近 0)

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2(预期置信度得分接近 1)

M - TS - CS

1 - 0.50 - 0.63

2 - 0.74 - 0.90

3 - 0.615 - 0.833

这里我的假设是文档 1 的置信度分数应该接近于零,文档 2 的置信度分数应该接近 1。

也有可能所有文档的所有方法的分数都较低(例如 2),因此所有文档的置信度分数应该接近于零。

例如.2

Doc1(预期置信度得分接近 0)

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2(预期置信度得分接近 0)

M - TS - DS

1 - 0.001 - 0.003

2 - 0.004 - 0.005

3 - 0.0021 - 0.013

谁能解释我或提供一些资源来计算置信度分数?

【问题讨论】:

    标签: python machine-learning deep-learning


    【解决方案1】:

    如何将所有方法的标题分数(因为它们在相同的量表上)和内容分数相加/取平均值,这样现在您将拥有一个标题分数和一个内容分数。

    要获得文档的单一分数,您必须结合标题和内容分数。为此,您可以采用加权平均值(您必须确定权重),或者您可以将这些分数相乘以获得单个指标。虽然这些可能不会接近零或一,但您的要求是

    作为一种替代方法,您可以使用添加/平均的标题分数和内容分数创建数据集,并手动创建带有零和一的置信度分数列。使用这些数据,您可以构建逻辑回归模型,以零和一的置信度分数对文档进行分类。这也将为您提供权重,并更深入地了解您实际寻找的内容

    【讨论】:

    • 感谢@Clock Slave,目前我正在尝试使用加权平均,逻辑回归应该使用多少近似数据?
    • 你有两列,所以我猜你可以使用 50-100 行。
    • 非常感谢时钟奴隶。
    • 另外,请记住,您在置信度得分列中的零和一的数量是平衡的。如果您有 95 个 0 和 5 个 1,那么您的模型将不会表现得那么好,您必须执行一系列其他步骤才能获得良好的结果。
    猜你喜欢
    • 2015-01-04
    • 1970-01-01
    • 2013-11-20
    • 1970-01-01
    • 1970-01-01
    • 2020-05-08
    • 1970-01-01
    • 2018-07-23
    • 2021-02-20
    相关资源
    最近更新 更多