【发布时间】:2018-10-02 00:42:48
【问题描述】:
我正在尝试使用 simple-html-dom 抓取此 url https://nrg91.gr/nrg-airplay-chart/,但它似乎没有获得完整的 html 源代码。这段代码:
include_once('simple_html_dom.php');
$html = file_get_html('https://nrg91.gr/nrg-airplay-chart');
echo $html->plaintext;
将内容显示到 h1,就在我之后的内容之前。从 simple-html-dom 手动示例中,这应该显示来自该 url 的所有链接:
foreach($html->find('a') as $e)
echo $e->href . '<br>';
但它只显示到主导航菜单的链接,而不是来自主体或页脚的链接。
我还尝试使用 prerender.com,在将 url 传递给 file_get_html 之前完全加载它,但结果是一样的。我究竟做错了什么?
【问题讨论】:
-
查看 nrg91.gr/nrg-airplay-chart(而不是 dom 检查器)的原始源代码会显示您正在尝试获取的数据。
-
完全正确。那么为什么 simple-html-dom 不能在这个页面上工作呢?
-
您是要获取整个 HTML 布局还是进入该表的原始数据?
-
我正在尝试获取图表数据:排名数字、艺术家、标题、Youtube 链接。每个都有 id,所以这应该不是 simple-html-dom 的问题。
标签: php web-scraping simple-html-dom