【发布时间】:2013-08-01 14:15:57
【问题描述】:
我遇到了 simplehtmldom 的问题,我已将其追踪到此代码块。我有大约 70 个不同的 url 要抓取,但我的循环只经过两个。在第二次迭代中,file_get_html($url) 仅将页面的一部分返回到 $html。嵌入的 foreach 循环将运行并打印出部分页面,然后它会将我踢出两个循环,而不会击中最后一次打印。最奇怪的是它没有给出警告或错误。
foreach($urls as $url)
{
$html = file_get_html( $url );
$appList = $html->find("loc");
foreach($appList as $each)
{
print "$each \n";
}
print "hello\n";
}
请不要给出忽略第二个 $url 并继续下一次迭代的答案。我需要每一页上的所有信息
【问题讨论】:
-
你的代码很好,AFAICT。也许这是一个特定于 URL 的问题?如果我可以问,您要解析哪个 URL?
-
我不想给出网址,但它是 brothersoft.com/sitemap.php?pageno=2 这给了我外部循环通过 pageno1-77 的问题
-
您是否开启了错误报告?
-
什么是报告以及如何打开它?我假设这会给我我的隐形错误
-
如果您从 url3 开始,它是否会做同样的事情并在 url4 中途死亡?可能会提供有趣的信息来确定是程序还是应该归咎于网址......
标签: php web-scraping simple-html-dom