【问题标题】:How can I download web page with dependencies in Java?如何在 Java 中下载具有依赖项的网页?
【发布时间】:2010-11-30 21:04:05
【问题描述】:

如何在 Java 代码中下载具有依赖项的网页,使其在本地呈现与在线呈现相同的方式? (不包括阿贾克斯)。我听说 wget 可以做到这一点,但我正在寻找一些可以做到这一点的 java 代码。

提前致谢。

【问题讨论】:

    标签: java wget


    【解决方案1】:

    这里有一个(开源)网络爬虫列表:http://java-source.net/open-source/crawlers,您可以使用它来执行此操作,也可以查看代码以了解它是如何完成的。

    【讨论】:

    • 我实际上正在使用 WebSphinx,但我无法找到如何使用类库(在工作台上很容易),即使我在文档和谷歌搜索中度过了一些美好的时光举些例子。当我知道它具有功能时,它非常烦人,我就是找不到它! ;) 我也会检查其他一些。
    • @Kris,我不熟悉那个爬虫,但是浏览一下 API,我猜你需要创建一个 Crawler 实例并按照 API 中列出的步骤操作:@987654322 @
    • 感谢您的努力,但我并不是在努力进行爬虫本身(我已经成功设置了爬虫),而是如何使用依赖项在本地保存页面以便它呈现正常。这可以通过下载“主页”中链接的 css 和图像来完成,或者确保本地副本是用绝对 URL(在 HTML 和 CSS 中)编写的。我希望我不必自己为此编写代码:)
    猜你喜欢
    • 2017-03-10
    • 1970-01-01
    • 1970-01-01
    • 2014-03-15
    • 1970-01-01
    • 2018-06-19
    • 2012-09-30
    • 1970-01-01
    相关资源
    最近更新 更多