xuehuiping
  • ICDAR 表格识别竞赛
  • TableBank
  • DocBank
  • TABLE2LATEX-450K
  • DECO

https://github.com/doc-analysis/TableBank

微软发布
word和latex两种格式。

https://github.com/doc-analysis/DocBank

https://github.com/bloomberg/TABLE2LATEX

该数据集包含约46.6万个表格-Latex代码对样例,从文档层面分为了训练集(约44.7万)、验证集(约0.9万)和测试集(约0.9万)。这个数据集实际上将表格结构识别任务作为了一个图像到文本(Image2Text)的转化任务。

DECO

《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》,作者通过抽取EnronCorpus,得到了一个包含1165份文件的数据集。该数据将表格的非空单元格标注为表格头、数据和注释等,同时注明了表格边界。对于不含表格的文件,使用了例如:模板、表单、报表等类别进行标注。
https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/

ICDAR2019

ICDAR2019表格检测与识别比赛(ICDAR2019 Competition on Table Detection and Recognition, cTDaR),是一个面向表格检测与识别任务的比赛,比赛官方网站为http://sac.founderit.com/。

参考

分类:

技术点:

相关文章:

  • 2021-06-28
  • 2021-06-24
  • 2021-07-05
  • 2021-09-22
  • 2021-12-19
  • 2021-05-20
  • 2021-12-19
猜你喜欢
  • 2021-12-03
  • 2021-12-19
  • 2021-08-04
  • 2021-08-01
  • 2021-07-08
  • 2022-12-23
  • 2021-09-10
相关资源
相似解决方案