【问题标题】:How to programmatically download all contents of webpage, not only the source code in Java如何以编程方式下载网页的所有内容,而不仅仅是 Java 中的源代码
【发布时间】:2014-12-17 21:26:42
【问题描述】:

我知道如何用 java 下载网页的源代码。但是一个网页也包含图片 url、CSS 和 JS 脚本 url,需要稍后下载:

<LINK REL="STYLESHEET" HREF="htmlatex.css">
<img src=p10012.gif>

如果我只下载网页的源代码,在离线模式下渲染它需要下载这个htmlatex.cssp10012.gif 导致离线模式下的内容丢失。我的目标是以编程方式下载网页的所有内容并将其作为 android 应用程序的资产提供。我如何在 java 中做到这一点。

注意:如果我的问题不够清楚,请告诉我。

【问题讨论】:

  • 因此您想下载某人的网站并将其用作您自己的应用程序的材料。这至少有侵犯版权的风险。
  • 不!就我而言,没有这样的版权问题!例如 - 这是网页之一:uva.onlinejudge.org/external/100/10012.html,我想通过设计机器人程序下载所有内容并在我的应用程序中提供。我发誓这是允许的:)
  • 您必须解析 HTML 才能找到外部资源的 URL。 Use the search.
  • 我知道如果我想手动完成,我必须这样做。但是你知道是否有任何图书馆可以做到这一点吗?

标签: java javascript android html css


【解决方案1】:

我建议使用JSoup 库来做它,因为它很好的 HTML 解析。您可以解析 HTML,然后遍历资源以下载它们。我不确定,但应该有一个关于你问的同一主题的例子。

【讨论】:

    猜你喜欢
    • 2011-12-20
    • 2020-12-07
    • 1970-01-01
    • 2021-10-22
    • 2010-09-19
    • 2019-11-11
    • 1970-01-01
    • 1970-01-01
    • 2014-12-14
    相关资源
    最近更新 更多