获取用于制作网络爬虫的页面的完整 html 源代码答案

【问题标题】：Getting a full html source code of a page for making a web crawler获取用于制作网络爬虫的页面的完整 html 源代码
【发布时间】：2015-10-14 11:06:01
【问题描述】：

我正在尝试在 java 中制作一个网络爬虫，它获取网页的 URL 并导航到给定网页的源代码中存在的其他页面。问题是，我在 jsoup 的帮助下获取了 HTML 的源代码，其中包含各种标签，如框架和一些 javascript 文件名。现在要导航到其他页面，我需要访问框架和 javascript 文件中给出的 http 链接。我应该如何在列表中获取这些链接。

【问题讨论】：

带有 html 解析器。祝你好运！
但是我如何获取文件名存在于 html 代码中的 javascript 源代码。

标签： java web-crawler jsoup

【解决方案1】：

您需要递归地执行此操作...在 DOM 对象中找到一个框架标签/元素，是时候获取其“src”属性的 DOM，继续执行此操作，将您在后续获取中找到的所有链接存储到大批。
您可以使用新线程来获取帧 DOM。只是为了让整个过程更快一点。

【讨论】：