Heritrix是一个纯Java开发的、开源的Web网络爬虫,开发者可以可以根据自己的抓取逻辑来对它的各个组件进行扩展,但是在扩展之前必须对其各个组件有个整体的理解。下面的图示,是我在学习Heritrix时对整体各个组件间的关系的理解,仅供大家参考,自己能力有限,不对的地方大家一起探讨下。

 Heritrix组件框图详解

相关文章:

  • 2021-06-27
  • 2022-12-23
  • 2021-05-27
  • 2022-12-23
  • 1970-01-01
  • 2022-12-23
  • 2021-08-05
猜你喜欢
  • 2022-12-23
  • 2021-12-18
  • 2022-12-23
  • 2021-12-15
  • 2021-07-25
  • 2021-07-31
  • 2021-06-30
相关资源
相似解决方案