【问题标题】:Parse css for background images解析背景图像的 css
【发布时间】:2011-06-21 15:17:05
【问题描述】:

我的任务是进行网络抓取项目。我们正在将一堆静态内容放入 CMS。

HtmlAgilityPack 让我可以通过查找带有 src 或 http= 的任何内容来获取相关资源,但是 css 文件及其背景图像呢?有没有一个很好的工具来解析css文件来得到这个?

我目前的解决方案有点像cthulu 这样做的方式:

Regex r = new Regex(@"url\(.*\)");
     foreach (var item in r.Matches(cssText))     
     {
    ///scrub url and     
    ///mark img for download
     }

【问题讨论】:

  • 不确定这是一个好的答案,所以我暂时将其放在评论中。如果我有这个任务,我会很想让浏览器完成这项工作。安装一个能够触发一些 jQuery、遍历页面并将图像 URL 发送到控制台的小书签。然后将浏览网站的控制台输出复制/粘贴到文本文件中,并在文本编辑器中进一步处理。
  • 我几乎走上了这条路,但我不知道如何开始重新发明 firebug 的功能。
  • 据我所知,该问题中的资源实际上对获取属性值没有太大帮助。至少我无法让 JsonFx 的工具对我有任何好处。

标签: c# css


【解决方案1】:

IMO 根本不是 cthulu。您的解决方案对我来说听起来足够好......甚至可能是使用正则表达式的一个很好的例子。

【讨论】:

  • 投反对票原因:“regex”和“html parsing”这两个概念不属于一起。对该站点的简单谷歌搜索将显示围绕此问题的剪切数量。欲了解更多信息:stackoverflow.com/questions/1732348/…
  • 感谢您指出这一点。请问:你知道CSS和HTML的区别吗?你读过 cthulu 吗?
  • (已编辑,因此我可以删除反对票)。在这种极其有限的情况下,可能可以这样做。
猜你喜欢
  • 2011-10-21
  • 1970-01-01
  • 2021-12-22
  • 1970-01-01
  • 2013-10-01
  • 1970-01-01
  • 2012-01-01
  • 1970-01-01
  • 2014-05-25
相关资源
最近更新 更多