分析并获取网页数据的一些收获

最近在对网页进行结构分析，尝试获取网页上的数据，写了一些小工具。具体的思想很简单，就是先获取网页的URL，接着发送请求给服务器，得到返回结果document, 然后分析网页的节点结构获取数据。在做这些事情的时候遇到了一些问题，比如网页本身的标签闭合错误，或标签内的onclick="xxxx("....")"这样的写法，都导致最后获取的数据出现问题，xpath找不到需要的节点。除了这些还发现页面上的空格，也会被作为childnode,从而导致childnodes的个数和预想的不一样。

2022-02-06
2021-12-03
2022-12-23
2022-12-23
2022-12-23
2021-12-26
2021-10-27
2022-03-07