【发布时间】:2018-12-08 17:08:15
【问题描述】:
我正在尝试创建一个可以抓取页面及其子页面的内容抓取工具。 我的主要目标是我需要检索一个网页子页面(如果有的话)。
为了展示我想要的几乎就是这个website does
起初以为我试图创建这个伪代码:
1. Crawl Url
2. Check A-tags Values(href) and add to list
- if the value contains in visited links ignore
3. Take new Values and turn them into possible URLs
4. Add those into new NewUrls List
5. Crawl NewUrls
6. Keep Track of visited URLs
7. Visit newUrls do nr 1.
8. Stop when visited URL equals to newUrl
所以这里的问题: 在 3rd 任务中,我必须将 URL 置于多个不同的规则中,其中仍然包含 baseHost,不包含不必要的项目等等。
由于可以有连续数量的不同样式的 href 值,因此必须有相当多的规则和检查,更不用说让它看起来很乱,而且还很慢。
有没有更好的方法来检索站点站点地图? 或者说得通俗一点,我怎样才能检索一个网站的所有子页面?
【问题讨论】:
标签: c# web-crawler console-application