【问题标题】:How to calculate number of correct data records extracted?如何计算提取的正确数据记录的数量?
【发布时间】:2015-06-24 02:50:22
【问题描述】:

我想计算我需要提取的正确数据记录、数据记录总数和提取的不正确数据记录的召回率和精度。

我有输入的 html 页面,我正在从中提取有用的数据并使用包装器生成输出 html 页面。

【问题讨论】:

  • 你需要一些东西来比较你的输出。如果您正在评估一个检索系统,您需要一个“理想”(即黄金标准)的检索文档集,您将与之进行比较。在这种情况下,您需要有一组正确的数据记录,可能是手工制作的。
  • 请详细写下您的问题并解释您要做什么。
  • 我同意@Nilesh,您的问题可能会添加更多细节。另外,为什么对答案投反对票?如果有问题,也许可以评论原因或编辑。

标签: information-retrieval evaluation text-extraction precision-recall


【解决方案1】:

要计算提取了多少正确的数据记录,您需要有一个reference set 的正确数据记录。参考数据集是您将输出与之比较的内容,参考集是您的输出应匹配的理想输出。引用集也称为"gold standard" 集。

参考集可以手动创建,或者,如果存在更好的 IR 系统可以满足您的目的,则可以由另一个系统创建。

要计算提取的正确数据记录的数量,您只需计算系统输出和黄金标准输出中有多少记录。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-01-20
    • 1970-01-01
    • 1970-01-01
    • 2012-03-03
    • 2022-08-16
    • 2012-08-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多