【发布时间】:2023-03-16 13:41:02
【问题描述】:
在 Digg 和 Facebook 等主要网站上共享链接时;它将通过捕获页面的主要图像来创建缩略图。他们如何从网页中捕获图像?它是否包括加载整个页面(例如通过 cURL)并解析它(例如使用 preg_match)?对我来说,这种方法既慢又不可靠。他们有更实用的方法吗?
附:我认为应该有一种实用的方法可以通过跳过某些部分(例如 CSS 和 JS)来快速爬取页面以达到 src 属性。有什么想法吗?
【问题讨论】:
-
是的,他们会使用 cURL 或类似的东西来加载它,但他们会使用 HTML 解析器来查找图像(并获取
src属性),不是正则表达式。 -
你能想出一种从页面中查找图像而不是解析出来的“更实用”的方法吗?
-
我正在考虑一种更实用的方法来抓取页面,而不是使用 cURL 之类的内容加载整个页面。为此,它们不需要加载 CSS 和 Javascript 代码。
-
CURL 不会加载 CSS 和 javascript,除非您将其指向这些 URL。如果它是内联 CSS 和 javascript,那么无论如何你都必须阅读它。它不会被 CURL 解释。
标签: php html regex curl preg-match