【问题标题】:Extracting data using screenscrapers [closed]使用屏幕截图提取数据 [关闭]
【发布时间】:2011-01-06 02:14:18
【问题描述】:

我正在寻找有关我需要从某些网站提取“联系我们”信息的屏幕截图的建议。

有什么想法可以让我获得一个好的(免费的)屏幕截图吗?

【问题讨论】:

    标签: screen-scraping html-content-extraction


    【解决方案1】:

    自己编写——并不难。如果您不熟悉编程或无法选择编程语言:请使用 Python 库支持来进行出色的抓取。

    至于如何解决问题,有两种流行的技术:使用regular expressions,它们最适合ad-hoc 屏幕抓取。如果您的目标网站结构良好——阅读:不是临时的——然后使用允许您使用DOM 的框架。

    导航和提取

    这是编写spider 的两个阶段。你的蜘蛛需要导航一个网站来访问不同的页面,它需要提取感兴趣的信息。这两个阶段都可以由 DOM 或 RE 驱动

    p.s.,因为你的名字表示 .NET——我应该提到我已经用 C-Sharp 编写了爬虫——这是轻而易举的事。

    【讨论】:

    • Hassan,我是 C# 新手,这是我的首选语言。您可以推荐任何可以向我展示如何编写自己的屏幕截图的网站?
    • 如果目标网站的所有者决定修改他们的网页,那我的屏幕截图就搞砸了,对吗?
    • 是的,它可能会弄乱你的刮刀。我提到的两种方法在这方面各有优缺点。如果网站以实施者关心其网站的语义兼容性的方式发生变化,则 DOM 方法将起作用。如果他不经常使用正则表达式会更好——如果我要废弃亚马逊,我会使用 DOM 方法——但对于较小的网站,尤其是那些试图通过故意混淆结构来保护其内容的网站——我会使用常用表达。我写过的所有爬虫都使用 RE。
    • 我建议你阅读维基百科的两篇文章,看看我所说的如何以及为什么是真实/不真实的。之后只需谷歌搜索“C# screen scrapping DOM”和“C# screen scrapping regular expressions”
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多