【发布时间】:2012-06-21 16:46:00
【问题描述】:
我想收集域名(爬取)。我编写了一个简单的 Java 应用程序,它可以读取 HTML 页面并将代码保存在文本文件中。现在,我想解析此文本以收集所有域名而不会重复。但是我需要没有“http://www.”的域名,只需要 domainname.topleveldmian 或 dmianname.subdomain.topleveldomain 或任何数量的子域的可能性(然后,需要以相同的方式提取收集的链接并收集里面的链接直到我达到一定数量的链接,比如 100 个)。
我在之前的帖子https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames 中询问过这个问题,并进行了搜索。 JSoup 似乎是一个不错的解决方案,但我之前没有使用过 JSoup,所以在深入研究它之前。我只想问:它是否实现了我想做的事情?欢迎任何其他以简单方式实现我的简单爬行的建议。
【问题讨论】:
标签: java jsoup web-crawler