最近在对网页进行结构分析,尝试获取网页上的数据,写了一些小工具。具体的思想很简单,就是先获取网页的URL,接着发送请求给服务器,得到返回结果document, 然后分析网页的节点结构获取数据。在做这些事情的时候遇到了一些问题,比如网页本身的标签闭合错误,或标签内的onclick="xxxx("....")"这样的写法,都导致最后获取的数据出现问题,xpath找不到需要的节点。除了这些还发现页面上的空格,也会被作为childnode,从而导致childnodes的个数和预想的不一样。

相关文章:

  • 2022-02-06
  • 2021-12-03
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-26
  • 2021-10-27
  • 2022-03-07
猜你喜欢
  • 2022-12-23
  • 2021-11-01
  • 2021-10-19
  • 2021-07-05
  • 2022-12-23
  • 2021-07-13
相关资源
相似解决方案