njxuyufeng

需求:

两个建筑行业的招标网站发布的招标文档,标题可能不同,正文大部分相同,如何通过程序判断文档是否一致,从而达到去重的目的

 

现状:

1、没有深度学习的基础,只能回归到常规软件算法

2、范围限定在建筑行业,招标内容,那有限场景下用穷举法是没问题

3、允许一定重复率,后期可以手动或者算法优化去重

 

分析思路:

1、每一个标书都有N个要素:时间,地点,人物,金额等等,逐个分析,哪个是必须的,它出现的方式有多少种

2、将所有已下载标书遍历,看看要素字段获取成功率,低于90%,说明还有常用的字段词汇,没有穷举出来,找出来补充到脚本里面去即可

3、比对文档相似度问题,转变为比较N个要素一致性的问题,可以用SQL进行查重,也可以用ES引擎来做查重。

 

获取文档中的要素的测试代码(test.rar,在文件下载区):

1、可以获取招标金额,有小缺陷

2、可以获取项目地址 

 

 

分类:

技术点:

相关文章:

  • 2022-01-11
  • 2018-05-30
  • 2022-02-01
  • 2021-05-15
  • 2021-07-08
  • 2021-05-24
  • 2021-12-15
  • 2021-10-12
猜你喜欢
  • 2022-01-09
  • 2021-12-07
  • 2021-10-03
  • 2021-09-09
  • 2021-11-06
  • 2021-10-03
相关资源
相似解决方案