【发布时间】:2012-10-10 20:51:35
【问题描述】:
我们有一个包含 560 多个页面的 Web 应用程序。我想以某种方式对站点进行编目,以便我可以查看页面(无需在菜单中找到每个页面或输入 URL)。对于解决此问题的最佳方法的想法感到非常高兴。
我很乐意最终得到 560 个图像文件或 PDF,或者一个大的 PDF 或其他。我可以轻松地将包含所有 URL 的脚本组合在一起,但我需要帮助的是如何提取这些并拍摄某种快照并将其保存到一个或多个文件中。
该网站是用 Java(服务器)和 javascript(客户端)编写的。
【问题讨论】:
-
请说明页面是使用 JavaScript 进行样式设置的 HTML,还是完全使用 JavaScript 构建的。
-
如果是前者,您将能够使用网络爬虫来爬取页面。 source forge 中有几个。如果是后者,您可能需要使用 selenium 自动化浏览器。一旦知道答案,我们就可以建议工具。
-
页面是 HTML 与 javascript 样式和自动化。
-
我假设您可以访问源/文件系统?