【发布时间】:2012-06-07 23:59:16
【问题描述】:
我想从 HTML 页面获取数据(抓取它)。但它包含 javascript 中的评论。在普通的 java url fetch 中,我只得到没有执行 Javascript 的 HTML(实际的)。我想要执行 Javascript 的最后一页。
示例:- http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp
此页面将 cmets 作为 facebook 插件,以 Javascript 的形式获取。
即使在this上也与this类似。 http://www.imdb.com/title/tt0848228/reviews
我该怎么办?
【问题讨论】:
-
一般来说,做类似事情的唯一真正选择是利用 Web 浏览器作为您自己软件的组件。让浏览器获取页面并模拟 JavaScript 执行其操作所需的任何交互,然后检查 DOM。
-
应该有一种方法来实现 facebook API 以从该帖子中获取 cmets 以及页面的其余内容。
标签: java javascript web-scraping