网上也有资料,有的只有jar包没有源码,整理好网上的资源,把源码开放出来。
https://gitee.com/kanen/invoice
欢迎使用和交流。

内容介绍

电子发票(PDF)识别与验真

1、支持电子发票(PDF)的读取

目前仅支持普通发票,如果您想解析其他发票可底部留言或者联系我

2、验真暂未实现,网上有付费的接口,如用友apilink,阿里云市场、乐税网。差不多都是几分钱一次。

不知道是跟国税局合作,还是使用验证码识别技术 调用的国税局查询接口。这个等以后有时间再研究。

识别原理:

1)使用pdfbox提取pdf文本内容,通过正则匹配到部分属性

2)第一步无法获取全部有效的属性信息,通过关键字拿到定位信息,使用定位的区域,通过pdf的区域读取问题,然后再结合正则进一步匹配得到其他有效属性信息。

特别说明:

该项目核心识别代码来源于github上的fantasyxxj的einvoice项目,在此基础上做的改动调整,在此感谢。

软件架构

springboot

pdfbox

安装教程

从git导入IDE即可

使用说明

参考demo中的电子发票读取

效果如下:
电子发票(PDF)识别信息提取(JAVA)
电子发票(PDF)识别信息提取(JAVA)

后续计划

1、批量读取电子发票并导出到excel

这个网上其实有案例,python写的居多。

2、发票验真

难点在验证码识别和以后考虑到的反爬虫技术(如动态IP代理等)
到底要不要入这个坑,还没想好,验证码识别虽然可以尝试去做,但是官网也会更新,甚至使用其他的人机校验方式,比如像12306那种更恶心的校验,或者滑块验证,或者其他更复杂的校验。做这个比较被动。

相关文章:

  • 2021-11-23
  • 2022-12-23
  • 2021-09-07
  • 2021-04-19
  • 2021-12-14
  • 2022-12-23
  • 2021-09-17
猜你喜欢
  • 2022-12-23
  • 2021-12-31
  • 2021-07-21
  • 2021-09-22
  • 2021-10-17
  • 2021-07-23
  • 2021-12-05
相关资源
相似解决方案