【发布时间】:2013-06-15 08:57:57
【问题描述】:
我正在试用Goutte,这是一个基于 Symfony2 组件的 PHP 网络爬虫。我已经成功地以纯文本和 SSL 形式检索了 Google。但是,我遇到了一个无法加载的 ASP/SSL 页面。
这是我的代码:
// Load a crawler/browser system
require_once 'vendor/goutte/goutte.phar';
// Here's a demo of a page we want to parse
$uri = '(removed)';
use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET', $uri);
echo $crawler->text() . "\n";
相反,对于这个站点,上述代码末尾的回显给了我这个:
错误请求(无效的标头名称)
我可以在 Firefox 中很好地看到该站点,并且可以使用 wget --no-check-certificate 很好地检索它的 HTML,而无需其他选项(例如,设置标头或用户代理)。
我怀疑我需要在 Goutte 中设置一些 HTTP 标头。有没有人知道我应该尝试哪些?
【问题讨论】:
-
(旁白:如果有人想知道这里的否决票,我怀疑这个问题已成为我帐户的报复性否决票的避雷针。在我进行合理的编辑或投反对票但有人不喜欢的地方,这个问题得到了报复。呸!
:-))。 -
天哪;忽略加号,现在是 -10
:-O
标签: php http goutte symfony-components