【发布时间】:2009-11-29 09:39:00
【问题描述】:
我正在为奖品信息构建一个小型专业搜索引擎。该引擎将仅收集每个站点上的特定数据段。我的计划是将这个过程分成两个步骤。
基于指向我需要的片段所在页面的 URL 的简单屏幕抓取。 最简单的方法是使用 WebClient 对象并获取完整的 HTML 吗?
一旦 HTML 被提取并保存,通过一些脚本对其进行分析,并仅提取我需要的部分和值(例如产品的价格值)。我的问题是这个脚本对于我拉的每个站点都必须是唯一的,它必须能够处理非常丑陋的 HTML(所以我认为 XSLT 不会这样做......)并且我需要能够更改它随着目标站点的更新和变化而即时更新。最后,我将获取特定值并将它们写入数据库以使其可搜索
您能否给我一些关于如何以最佳方式构建架构的提示?你会做与上述不同的事情吗?
【问题讨论】:
标签: c# .net screen-scraping search-engine