cURL - 仅在 html 页面（链接）时获取数据答案

【问题标题】：cURL - Fetch data only if html page (link)cURL - 仅在 html 页面（链接）时获取数据
【发布时间】：2011-04-01 14:30:53
【问题描述】：

我正在构建一个 CSS Optimizer 网站，在此我将提供一个选项，用户提交网站 URL，在后端，服务器将解析该域中的所有 anchors 和 link 标签。因此，这将使网站能够连接 + 压缩 css，这可能在所有不同页面上都是唯一的。

由于我的网站需要anchor (html) 和<link> 我应该怎么做才能避免获取non-html (like .doc, .pdf) 等的链接

【问题讨论】：

【解决方案1】：

我认为你不能只回答目标的扩展。干净的 URL 最后通常不会有扩展名，可能会生成内容。

您可能应该对每个 URL 执行 HTTP HEAD，然后检查返回的 Content-Type。

【讨论】：

【解决方案2】：

用mime_content_type()检查相关链接的mime类型怎么样？

【讨论】：