【发布时间】:2013-06-19 13:56:50
【问题描述】:
我目前正在尝试提取信息,例如来自商业文件(如账单)的发件人或收件人。这些文档是用ocr软件处理成xml文件的,所以它们带有格式特征的注释。在使用发件人和收件人等功能手动注释一个类似文档后,我想从新文档中提取特定信息。
所以我的问题是,是否有一种学习或匹配算法能够通过仅与一个或两个相似文档示例进行比较来提取特定数据。如果是:是否有某种 java 框架能够做到这一点?
谢谢你
马古
【问题讨论】:
-
你想怎么匹配?如果这两个文件没有共同点怎么办?当只有一个文档时,我们是否在寻找完美匹配?
-
假设文档是相似的,例如两个基于相同模板的账单。注释了第一个之后,我想提取第二个,第三个,......等等的信息。
标签: xml-parsing machine-learning wrapper information-retrieval information-extraction