【发布时间】:2011-02-01 15:08:33
【问题描述】:
我将如何下载和执行(即评估 Javascript、构建 DOM)每分钟超过 1000 个 XHTML 文档?
一些轮廓/限制:
- 要下载的 URL 位于不同的服务器上。
- 我需要遍历 - 并且最好修改生成的 DOM。
- 对渲染图形不感兴趣。
- 带宽不是问题。
- 过多的硬件并行化将是一个更大的问题。
- 生产环境是.NET。
我不太关心下载页面。我估计实际执行页面是一个瓶颈。 .NET 有一个内置的 Web 浏览器对象,但我不知道它是否会在单台机器上扩展。此外,.NET 不是绝对要求,但它会使这里的集成更容易。
我将不胜感激任何有关以下方面的 cmets/指针:
- 哪种浏览器 API 最适合执行此操作?
- 浏览器是正确的方式吗?也许有一种更轻量级的方式来执行最重要的部分 Javascript(...但不提供 DOM)?
- 哪些现有产品/服务(无论是开源的还是商业的)可以完成这项任务?
- 我预计每分钟大约可以在单台机器上处理多少页(3 毫秒 Chrome 渲染商业版)?
- 可能会遇到的任何陷阱...
提前谢谢你,
/大卫
【问题讨论】:
-
从购买一台非常非常大的计算机开始 :-) 如果您不在浏览器中进行操作,则很难确保页面正常运行;任何 JavaScript 代码都非常认为它可以进行正常的 DOM 操作。
-
哦,吞吐量肯定取决于这些“页面”的指标以及它们上 JavaScript 代码的性质。
-
这是你偶尔运行的东西,比如负载测试器,还是每天都在运行?
-
你想在这里完成什么?
-
它将连续运行。最终目标:提取一些节点的文本内容。对于有 AJAX 和公司的网站,我需要确保所有内容都在那里,因此需要实际“执行”页面。
标签: javascript .net dom webbrowser-control