【发布时间】:2012-04-15 08:29:54
【问题描述】:
我正在尝试从网站上抓取文章标题,但是此页面仅加载前五个标题,并且在用户向下滚动页面时加载更多(JSON 调用更多文章并注入页面)。
我构建的网络爬虫完美运行,但只能找到前 5 篇默认文章,而我想要实现的是加载超过 5 篇。有没有使用 PHP 实现的方法,如果你能解释我为什么/如何工作我真的很感激,因为我喜欢学习这些东西。
【问题讨论】:
-
您需要发布您的代码,如果没有它,您认为任何人都能够给您答案吗?
-
您可以尝试直接访问源代码,而不是报废页面,使用 curl 注入任何 POST/GET 所需的参数
-
Lawrence 的建议是最合理的,但不了解相关网站会使回答变得困难。您是否还检查了该网站是否有例如 RSS 提要或站点地图?
-
请记住,如果相关目标网站更改其 HTML 结构或 UI 方法,您的抓取工具可能会损坏。
-
网站中没有提要/api,如果有的话会容易得多。
标签: php web-scraping dynamic-content