【发布时间】:2012-03-28 08:47:16
【问题描述】:
我想通过网络抓取我无法访问的 java 脚本页面的 html 源代码,除非在下拉列表中选择一个选项,然后“单击”链接。尽管没有学过java,一个简单的例子可以是这样的:
在此 URL 底部的下拉列表中以所有可用语言对主要维基百科页面进行 Web 抓取:http://www.wikipedia.org/
为此,我需要选择一种语言,例如英语,然后在新网址左侧的“主页”链接中“单击”(http://en.wikipedia.org/wiki/特殊:搜索?搜索=&go=Go)。
在这一步之后,我会抓取英文维基百科主页的html源代码。
有没有办法使用 R 来做到这一点?我已经尝试过 RCurl 和 XML 包,但它不适用于 javascript 页面。
如果使用 R 无法实现,谁能告诉我如何使用 python 做到这一点?
【问题讨论】:
-
我不知道为什么有人在没有评论的情况下降级了这个问题。实际上我是 R 编程的初学者,在 celenius 回答之后,我开始学习 Python。如果问题不清楚或没有显示任何研究工作,我将不胜感激。
标签: python r web-scraping rcurl