信息提取 - 商业文件答案

【问题标题】：Information Extraction - business documents信息提取 - 商业文件
【发布时间】：2013-06-19 13:56:50
【问题描述】：

我目前正在尝试提取信息，例如来自商业文件（如账单）的发件人或收件人。这些文档是用ocr软件处理成xml文件的，所以它们带有格式特征的注释。在使用发件人和收件人等功能手动注释一个类似文档后，我想从新文档中提取特定信息。

所以我的问题是，是否有一种学习或匹配算法能够通过仅与一个或两个相似文档示例进行比较来提取特定数据。如果是：是否有某种 java 框架能够做到这一点？

谢谢你

马古

【问题讨论】：

【解决方案1】：

如果 XML 结构始终相同（使用相同的模板）：

只需保存信息所在选定节点的 XML 父节点，以便您知道信息的路径。不应该是一个问题 - 微不足道的任务。

如果非要搜索信息：

它可以通过创建某些特征提取规则来工作，然后使用该特征来训练支持向量机来检测信息所在的区域。

但这绝非易事，而且肯定需要不止一两个培训文档。

【讨论】：