【发布时间】:2015-10-16 23:09:26
【问题描述】:
所以,我从 HTTP 请求中获得了原始 HTML 文本,现在我想解析它并从中获取一些元素以用于我的程序中,如何将 CSS 选择器应用于我的响应有吗?
有什么方法可以将此字符串转换为类似 HTML 的对象,我可以在其中运行 CSS 选择器查询?
我该怎么办?
public String getPage(int page) {
HttpGet get = new HttpGet("http://myurl.com");
String body = null;
try {
CloseableHttpResponse response = httpClient.execute(get);
HttpEntity responseEntity = response.getEntity();
body = EntityUtils.toString(responseEntity);
} catch (ClientProtocolException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
System.out.println(body);
return body;
}
【问题讨论】:
-
您应该将代码 sn-p 与您的问题一起发布
-
查找正则表达式。它们让您可以根据模式从文本中抓取片段(例如每个 Nth div 的内容)。也许this 可能是一个很好的起点。
-
嗨,Jasper,感谢您的帮助,我知道 RegExp,但我想要一些更简单的东西,因为我必须在页面上找到多个元素。
标签: java