【问题标题】:How can I control Firefox from R to handle AJAX/Javascripts如何从 R 控制 Firefox 来处理 AJAX/Javascript
【发布时间】:2011-12-15 17:08:37
【问题描述】:

我试图找出一种通过 R 脚本控制浏览器(最好是 Firefox)的方法,以便在网站中检索由 AJAX/Javascript 控制的信息。例如,如何检索http://www.mobile.de/home/index.html 的“Modell”字段中的值?

AFAIU,Gabe Becker 的包 "RFirefox" 确实提供了 R 和 Firefox 之间的某种联系。但是作为一个 Windows-Kid(不是因为信念,而是长期的网络效应 ;-)),我自己还不能尝试,所以我不确定它是否能达到我的目标。

那么:有没有人对 RFirefox 或通过 R 处理 AJAX 有一定的经验?不想让你做我的功课,但在我进入 Linux 世界之前,我只想评估一下它是否值得。

不过,我们将不胜感激任何代码示例。 ;-)

【问题讨论】:

标签: ajax r firefox web-scraping rcurl


【解决方案1】:

我不清楚您为什么需要浏览器来执行此操作。这只是网络抓取;当然,它需要某种解析器,但不一定是浏览器。我认为 RFirefox 可能是在吠叫错误的树。如果您想使用 Javascript+R 连接,请查看 Duncan Temple Lang 的SpiderMonkey

即便如此,我认为使用适合使用 Javascript 的更严格的抓取/抓取工具收集数据可能会更好。 This question on SO 似乎特别符合这一点。我的建议是获得一个可以满足您需要的工具,然后以尽可能简单的级别将其与 R 接口。 Webkit 有多种语言的绑定,尽管 R 似乎不是这种情况。

This question 更贴切地解决了您的情况:它也在 Windows 上。它不使用 Webkit。已接受答案中的三个建议是指从 Python 访问用 C/C++ 编写的工具。 R 对两者都有接口,因此您可能会发现编写一些东西来使用它们并在 R 和 Python 或 C/C++ 之间来回传递对象和指令更容易。

【讨论】:

  • 感谢您的建议!我会更详细地检查它们,以找出最适合我的方法。
  • 好的,浏览你的链接: 1) 一直认为从长远来看最简单的方法就是“模拟”一个真实的用户,这就是我远程控制浏览器的想法。 2)SpiderMonkey:一定错过了,谢谢指点! 3) 在这方面你对 Ruby 有什么看法?值得一试,或者我最好还是投入 Python 来完成这项任务
  • 我对 Ruby 的了解非常有限,所以我更喜欢 Python,尽管这是个人决定。由于这个问题在某种程度上用 Python 解决了,而且 Python 社区有很多 R 支持者(反之亦然),这可能是一个指南,尽管这取决于你。
猜你喜欢
  • 2020-05-14
  • 1970-01-01
  • 1970-01-01
  • 2011-08-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多