使用屏幕截图提取数据 [关闭]答案

【问题标题】：Extracting data using screenscrapers [closed]使用屏幕截图提取数据 [关闭]
【发布时间】：2011-01-06 02:14:18
【问题描述】：

我正在寻找有关我需要从某些网站提取“联系我们”信息的屏幕截图的建议。

有什么想法可以让我获得一个好的（免费的）屏幕截图吗？

【问题讨论】：

【解决方案1】：

自己编写——并不难。如果您不熟悉编程或无法选择编程语言：请使用 Python 库支持来进行出色的抓取。

至于如何解决问题，有两种流行的技术：使用regular expressions，它们最适合ad-hoc 屏幕抓取。如果您的目标网站结构良好——阅读：不是临时的——然后使用允许您使用DOM 的框架。

导航和提取

这是编写spider 的两个阶段。你的蜘蛛需要导航一个网站来访问不同的页面，它需要提取感兴趣的信息。这两个阶段都可以由 DOM 或 RE 驱动

p.s.，因为你的名字表示 .NET——我应该提到我已经用 C-Sharp 编写了爬虫——这是轻而易举的事。

【讨论】：

Hassan，我是 C# 新手，这是我的首选语言。您可以推荐任何可以向我展示如何编写自己的屏幕截图的网站？
如果目标网站的所有者决定修改他们的网页，那我的屏幕截图就搞砸了，对吗？
是的，它可能会弄乱你的刮刀。我提到的两种方法在这方面各有优缺点。如果网站以实施者关心其网站的语义兼容性的方式发生变化，则 DOM 方法将起作用。如果他不经常使用正则表达式会更好——如果我要废弃亚马逊，我会使用 DOM 方法——但对于较小的网站，尤其是那些试图通过故意混淆结构来保护其内容的网站——我会使用常用表达。我写过的所有爬虫都使用 RE。
我建议你阅读维基百科的两篇文章，看看我所说的如何以及为什么是真实/不真实的。之后只需谷歌搜索“C# screen scrapping DOM”和“C# screen scrapping regular expressions”