【发布时间】:2011-06-21 15:17:05
【问题描述】:
我的任务是进行网络抓取项目。我们正在将一堆静态内容放入 CMS。
HtmlAgilityPack 让我可以通过查找带有 src 或 http= 的任何内容来获取相关资源,但是 css 文件及其背景图像呢?有没有一个很好的工具来解析css文件来得到这个?
我目前的解决方案有点像cthulu 这样做的方式:
Regex r = new Regex(@"url\(.*\)");
foreach (var item in r.Matches(cssText))
{
///scrub url and
///mark img for download
}
【问题讨论】:
-
不确定这是一个好的答案,所以我暂时将其放在评论中。如果我有这个任务,我会很想让浏览器完成这项工作。安装一个能够触发一些 jQuery、遍历页面并将图像 URL 发送到控制台的小书签。然后将浏览网站的控制台输出复制/粘贴到文本文件中,并在文本编辑器中进一步处理。
-
我几乎走上了这条路,但我不知道如何开始重新发明 firebug 的功能。
-
据我所知,该问题中的资源实际上对获取属性值没有太大帮助。至少我无法让 JsonFx 的工具对我有任何好处。