【发布时间】:2014-10-06 05:52:11
【问题描述】:
我有一组特定领域的半结构化 TEXT 文档(会计报告),它们的内容都非常相似。但是,数据在每个文档模板上的处理方式不同。
编写一些正则表达式并获得我想要的数据相当容易。但是对于每个新的文档布局都必须这样做。
我想构建一个通用解析器,它接收一个脚本,说明它应该如何读取特定布局的会计报告,因此对于每个新布局,我需要做的就是编写一个比编写一个更简单的新脚本很多正则表达式。
类似的东西:
解析脚本:
declare collection_name {
date,
description,
amount
}
get customer_name from line 3
get account_id from "AccountID <number>"
read data as <collection_name> from <pattern> until <pattern>
请给我任何线索,告诉我从哪里开始,读到什么,或者你是否已经看过类似的东西。非常感谢任何帮助。
【问题讨论】: