【发布时间】:2011-01-08 11:50:24
【问题描述】:
我希望在 C# 窗口窗体中开发一个 Web 抓取工具。我要完成的工作如下:
- 从用户那里获取 URL。
- 在 WINForms 的 IE UI 控件(嵌入式浏览器)中加载网页。
- 允许用户选择文本(连续、小(不超过 50 个字符))。从加载的网页。
- 当用户希望保存位置(HTML DOM 位置)时,必须将其保存到 DB 中,以便用户可以使用该位置在他的过程中获取该位置中的数据后续访问。
假设加载的网站是一个价格列表网站,并且报价不断变化,想法是保持 DOM 层次结构,以便我下次可以遍历它。
如果所有 HTML 元素都有其 id 属性,我将能够做到这一点。在 id 为 null 的情况下,我无法做到这一点。
有人可以提出一个有效的想法吗(如果可能的话,一个最低限度的代码 sn-p)。
即使您可以共享一些在线资源,它也会有所帮助。
谢谢,
维杰
【问题讨论】:
标签: c# dom web-crawler bots web-scraping