【发布时间】:2015-08-11 15:57:41
【问题描述】:
我正在尝试编写将处理 POST 请求并流式传输输入和输出的 servlet。我的意思是它应该读取一行输入,在这一行上做一些工作,然后写一行输出。它应该能够处理任意长请求(因此也会产生任意长响应)而不会出现内存不足异常。这是我的第一次尝试:
protected void doPost(HttpServletRequest request, HttpServletResponse response) {
ServletInputStream input = request.getInputStream();
ServletOutputStream output = response.getOutputStream();
LineIterator lineIt = lineIterator(input, "UTF-8");
while (lineIt.hasNext()) {
String line = lineIt.next();
output.println(line.length());
}
output.flush();
}
现在我使用curl 测试了这个servlet,它可以工作,但是当我使用Apache HttpClient 编写客户端时,客户端线程和服务器线程都会挂起。客户端是这样的:
HttpClient client = HttpClientBuilder.create().build();
HttpPost post = new HttpPost(...);
// request
post.setEntity(new FileEntity(new File("some-huge-file.txt")));
HttpResponse response = client.execute(post);
// response
copyInputStreamToFile(response.getEntity().getContent(), new File("results.txt"));
问题很明显。客户端在一个线程中按顺序完成它的工作 - 首先它完全发送请求,然后才开始读取响应。但是服务器为每一行输入写入一行输出,如果客户端没有读取输出(并且顺序客户端没有),则服务器被阻止尝试写入输出流。这反过来又会阻止客户端尝试将输入发送到服务器。
我想curl 可以工作,因为它以某种方式同时发送输入和接收输出(在不同的线程中?)。所以第一个问题是可以将 Apache HttpClient 配置为与curl 类似的行为吗?
下一个问题是,如何改进 servlet,使行为不端的客户端不会导致服务器线程挂起?我的第一次尝试是引入中间缓冲区,它将收集输出,直到客户端完成发送输入,然后 servlet 才会开始发送输出:
ServletInputStream input = request.getInputStream();
ServletOutputStream output = response.getOutputStream();
// prepare intermediate store
int threshold = 100 * 1024; // 100 kB before switching to file store
File file = File.createTempFile("intermediate", "");
DeferredFileOutputStream intermediate = new DeferredFileOutputStream(threshold, file);
// process request to intermediate store
PrintStream intermediateFront = new PrintStream(new BufferedOutputStream(intermediate));
LineIterator lineIt = lineIterator(input, "UTF-8");
while (lineIt.hasNext()) {
String line = lineIt.next();
intermediateFront.println(line.length());
}
intermediateFront.close();
// request fully processed, so now it's time to send response
intermediate.writeTo(output);
file.delete();
这可行,行为不端的客户端可以安全地使用我的 servlet,但另一方面,对于像 curl 这样的并发客户端,此解决方案会增加不必要的延迟。并行客户端在单独的线程中读取响应,因此当请求被消费时,响应将逐行生成,这将受益。
所以我认为我需要一个字节缓冲区/队列:
- 一个线程可以写入,另一个线程可以读取
- 最初只会在内存中
- 必要时会溢出到磁盘(类似于
@987654321@)。
在 servlet 中,我将生成新线程来读取输入、处理它并将输出写入缓冲区,主 servlet 线程将从该缓冲区读取并将其发送到客户端。
你知道任何图书馆喜欢这样做吗?或者也许我的假设是错误的,我应该做一些完全不同的事情......
【问题讨论】:
-
我准备了一些 code on github 来演示这个问题,如果有人想玩的话。
-
简而言之,您想要一个基于会话的请求吗?
标签: java multithreading http servlets streaming