【发布时间】:2010-07-04 06:07:00
【问题描述】:
我创建了一个新闻聚合器Newzupp,我想对其进行修改。现在我只是显示新闻故事的标题,并将它们链接到它们的网址。
我计划通过使用图像+标题而不是普通标题来使其更加图形化。我想知道如何获取每篇文章的主图(有点类似于google news)。
我能想到的一种方法是我可以剥离所有图像并显示指向同一篇文章的图像。但我认为这不会有效。有没有其他方法可以做到这一点?
我已经找到了解决办法。
- 获取url [html/xml]的内容
- 使用hpricot 抓取内容
- 查找所有带有“img”标签的元素
- 做一些研究,找出其中哪一个是主要的显示图像。 [如 Wired.com 的 rss 提要中的第 6 张图片]
我仍然认为这是非常低效的。我想知道 Google 新闻等服务如何抓取网站/博客并显示相关图片。
【问题讨论】:
标签: html ruby-on-rails image