【问题标题】:Does JSoup achieve this?JSoup 能做到这一点吗?
【发布时间】:2012-06-21 16:46:00
【问题描述】:

我想收集域名(爬取)。我编写了一个简单的 Java 应用程序,它可以读取 HTML 页面并将代码保存在文本文件中。现在,我想解析此文本以收集所有域名而不会重复。但是我需要没有“http://www.”的域名,只需要 domainname.topleveldmian 或 dmianname.subdomain.topleveldomain 或任何数量的子域的可能性(然后,需要以相同的方式提取收集的链接并收集里面的链接直到我达到一定数量的链接,比如 100 个)。

我在之前的帖子https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames 中询问过这个问题,并进行了搜索。 JSoup 似乎是一个不错的解决方案,但我之前没有使用过 JSoup,所以在深入研究它之前。我只想问:它是否实现了我想做的事情?欢迎任何其他以简单方式实现我的简单爬行的建议。

【问题讨论】:

    标签: java jsoup web-crawler


    【解决方案1】:

    jsoup 是一个用于处理真实世界 HTML 的 Java 库。它提供 一个非常方便的 API,用于提取和操作数据,使用 最好的 DOM、CSS 和类似 jquery 的方法

    所以是的,你可以连接到一个网站,提取它的 html 并用 jsoup 解析它。

    提取顶级域的逻辑是“你的部分”,你需要自己编写代码逻辑。


    查看文档以获取更多选项...

    Use selector-syntax to find elements

    Use DOM methods to navigate a document

    【讨论】:

      猜你喜欢
      • 2022-01-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多