【发布时间】:2015-02-14 01:55:07
【问题描述】:
我被困在一个我认为不太可能的工作项目上,我想知道是否有人可以证实我的信念,即这是不可能的,或者至少给了我新的选择。
我们正在为一个客户端做一个项目,该项目涉及从服务器大量下载文件(使用 ftp4j 和文档名称列表很容易做到),但现在我们需要对来自服务器的数据进行排序。客户正在合同中工作,并希望我们提取相关信息,例如:许可方、被许可方、产品、协议日期、终止日期、版税、限制。
既然文件完全不规范,那有可能吗?我可以想象加载文件并进行搜索,但我不知道如何从段落中提取信息,例如许可方和协议限制。这些不是哈希,而是长合约。即使我要搜索“许可方”,它也会多次出现在文档中。这些文档甚至不是一致的文件格式。有些是 PDF,有些是文本,有些是 html,我什至见过有些像 pdf 中的扫描图像一样糟糕。
我的老板一直在推动我从事这个项目,但我觉得自己似乎别无选择。我主要做网络和移动,所以大数据真的不是我的强项。这听起来有可能在合理的时间内完成吗? (我们说的是至少 1000 个文档)。我一直在用 Java 做这个。
【问题讨论】: