【问题标题】:Information Extraction - business documents信息提取 - 商业文件
【发布时间】:2013-06-19 13:56:50
【问题描述】:

我目前正在尝试提取信息,例如来自商业文件(如账单)的发件人或收件人。这些文档是用ocr软件处理成xml文件的,所以它们带有格式特征的注释。在使用发件人和收件人等功能手动注释一个类似文档后,我想从新文档中提取特定信息。

所以我的问题是,是否有一种学习或匹配算法能够通过仅与一个或两个相似文档示例进行比较来提取特定数据。如果是:是否有某种 java 框架能够做到这一点?

谢谢你

马古

【问题讨论】:

  • 你想怎么匹配?如果这两个文件没有共同点怎么办?当只有一个文档时,我们是否在寻找完美匹配?
  • 假设文档是相似的,例如两个基于相同模板的账单。注释了第一个之后,我想提取第二个,第三个,......等等的信息。

标签: xml-parsing machine-learning wrapper information-retrieval information-extraction


【解决方案1】:

如果 XML 结构始终相同(使用相同的模板):

只需保存信息所在选定节点的 XML 父节点,以便您知道信息的路径。不应该是一个问题 - 微不足道的任务。


如果非要搜索信息:

它可以通过创建某些特征提取规则来工作,然后使用该特征来训练支持向量机来检测信息所在的区域。

我曾经问过类似的问题Algorithm to match natural text in mail

但这绝非易事,而且肯定需要不止一两个培训文档。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-05-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-09-17
    • 2013-08-17
    相关资源
    最近更新 更多