【发布时间】:2017-09-16 11:07:19
【问题描述】:
所以我不想拉整个页面,只拉页面的前 40KB。就像这个Facebook Debugger 工具一样。
我的目标是获取社交媒体元数据,即og:image 等。
可以是任何编程语言,PHP 或 Python。
我在 phpQuery 中确实有使用 file_get_contents/cURL 的代码,并且我知道如何解析收到的 HTML,我的问题是 “如何在不获取整个页面的情况下仅获取页面的第一个 nKB”
【问题讨论】:
-
@LawrenceCherone 我在 phpQuery 中确实有使用 file_get_contents/cURL 的代码,并且我知道如何解析收到的 HTML,我的问题是 “如何仅获取页面的第一个 nKB 而不获取整个页面页”
-
这似乎已经回答了here。
-
--rangecurl 命令行选项似乎很合适,但并没有说太多细节curl.haxx.se/docs/manpage.html -
公平地说,你可以考虑使用 curl 和
CURLOPT_WRITEFUNCTION,它在读取 40KB 后中止,你也可以在点击</head>之前中止