无法使用 org.apache.commons.io java 库下载 pdf 网络链接答案

【问题标题】：Unable to download pdf weblinks using org.apache.commons.io java library无法使用 org.apache.commons.io java 库下载 pdf 网络链接
【发布时间】：2013-10-28 07:56:25
【问题描述】：

我正在尝试使用 org.apache.commons.io 库 java 下载 PDF 网络链接。我想下载'https://----------------.pdf' intp pdf 文件，当我按照 java 类运行时，它会在我的磁盘上创建目标 pdf，但我无法打开或读取该 pdf。它会抛出错误文件已损坏或无法读取。

如果有人检查我的代码有什么问题以及如何将 pdf 网络链接下载到 pdf 文件中，我将不胜感激。

import java.io.File;
import java.io.IOException;
import java.net.URL;

import org.apache.commons.io.FileUtils;

public class Simple {
    public static void main(String[] args) {
        try {
            URL url = new URL("https://docs.google.com/**********.pdf");
            File destination = new File("kodejava.html");

            //
            // Copy bytes from the URL to the destination file.
            //
            FileUtils.copyURLToFile(url, destination);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

【问题讨论】：

为什么要将 .pdf 文件保存为 .html 文件？
您检查过文件的内容吗？
如果目标文件 id 为 pdf ，它会创建但我无法打开它会引发错误文件损坏。

标签： java apache file-io download pdf-generation

【解决方案1】：

您需要将文件保存为 pdf，而不是 html。尝试将下载的文件重命名为 kodejava.pdf 并打开。我可以将其下载为 .pdf 并打开。

【讨论】：

我更改为 'kodejava.pdf' 但创建的 pdf 无法打开它会引发错误文件损坏
我试过这个网站 - tutorialspoint.com/junit/junit_tutorial.pdf。有效。可能是你没有权限
它有效，因为它以 www 开头。 , 以 https:// 开头的网站不起作用
您是否能够在未经身份验证的情况下在浏览器中打开它？
它在浏览器中打开但空白的黑页。