需要对大型 Web 应用程序进行编目答案

【问题标题】：Need to catalog a large web application需要对大型 Web 应用程序进行编目
【发布时间】：2012-10-10 20:51:35
【问题描述】：

我们有一个包含 560 多个页面的 Web 应用程序。我想以某种方式对站点进行编目，以便我可以查看页面（无需在菜单中找到每个页面或输入 URL）。对于解决此问题的最佳方法的想法感到非常高兴。

我很乐意最终得到 560 个图像文件或 PDF，或者一个大的 PDF 或其他。我可以轻松地将包含所有 URL 的脚本组合在一起，但我需要帮助的是如何提取这些并拍摄某种快照并将其保存到一个或多个文件中。

该网站是用 Java（服务器）和 javascript（客户端）编写的。

【问题讨论】：

请说明页面是使用 JavaScript 进行样式设置的 HTML，还是完全使用 JavaScript 构建的。
如果是前者，您将能够使用网络爬虫来爬取页面。 source forge 中有几个。如果是后者，您可能需要使用 selenium 自动化浏览器。一旦知道答案，我们就可以建议工具。
openwebspider.org
页面是 HTML 与 javascript 样式和自动化。
我假设您可以访问源/文件系统？

【解决方案1】：

我发现了一个很棒的 Firefox 插件，它使这变得相对轻松。该插件被称为 Screenshot Pimp（讨厌这个名字，喜欢它的作用）。它会拍摄浏览器内容的快照并立即将其保存到硬盘上的文件中。

然后我编写了一个脚本，将每个页面拉到一个 IFrame 中，并在上面显示 URL，并拍摄每个页面的快照。循环浏览 560 多个页面需要几个小时，但效果很好，现在我有了所有页面的目录。

【讨论】：