【发布时间】:2013-11-20 22:01:44
【问题描述】:
我被要求抓取一个通过 websockets 接收数据的站点,然后通过 javascript/jquery 将其呈现到页面。是否可以绕过中间人(DOM)并使用/抓取来自套接字的数据?像 phantomJS 这样的无头 webkit 是否可以做到这一点?目标站点正在使用socket.io。
我需要使用数据并根据数据中的关键字触发警报。我正在考虑使用Goutte 库,并将在 PHP 中构建刮板。
【问题讨论】:
-
你们有什么样的技术可用?您对机器有 root 访问权限还是使用共享主机? Goutte 不会帮助您,因为它们只会抓取“非套接字”内容。
-
我会选择主机。正在考虑使用 openshift 作为开发服务器,但也可以在 EC2 上使用 Ubuntu 映像。我打算使用 goutte 登录,然后在实际使用之前抓取套接字连接的详细信息。我的后备方案只是监视 Dom 事件,但显然效率会低得多。
-
你能发布网站 URL 和你想抓取的数据的描述吗?
-
恐怕不行。
-
@Tomas 这是我遇到的实际问题,但无法在这个问题上开始赏金 -stackoverflow.com/questions/20949884/…
标签: php websocket socket.io web-scraping