【发布时间】:2015-09-10 09:58:01
【问题描述】:
有没有办法将网页中的文本写入文本文档? (.txt) 我今天开始使用 Jsoup 来尝试这样做,但它似乎并不是我想要的(或者我认为)。因此,如果有任何方法可以使用 Jsoup 或其他任何方法来做到这一点,请告诉我。谢谢。
【问题讨论】:
有没有办法将网页中的文本写入文本文档? (.txt) 我今天开始使用 Jsoup 来尝试这样做,但它似乎并不是我想要的(或者我认为)。因此,如果有任何方法可以使用 Jsoup 或其他任何方法来做到这一点,请告诉我。谢谢。
【问题讨论】:
JSoup 允许您以string 的形式访问响应的正文,因此您可以执行 response.body() 并使用普通的 PrintWriter 或任何您喜欢的方式编写它。
JSoup 主要是关于从站点中提取实体,所以如果您只需要这样做,那么也许您可以使用一个更简单的库 - 通常,将抓取与解析分开以进行并行化很有用。 Apache HttpClient 是一个非常流行的用于执行 HTTP 请求的库,您可以将响应实体作为字符串获取并编写它,根据 example
您是否需要协商 SSL 连接或传递任何 cookie?如果是这样,HttpClient 提供了很多不错的features
Jetty HttpClient 是另一种选择,或者您甚至可以 curl url > 文件名。
【讨论】:
这里有一个适合您的选项:How to read a text from a web page with Java?
代替
System.out.println(str);
您需要写入一个 .txt 文件
【讨论】: