【发布时间】:2009-02-06 16:38:51
【问题描述】:
我需要以编程方式确定 RSS 提要是公开其文章的全部内容还是仅公开它们的摘录。你会怎么做?
【问题讨论】:
标签: rss
我需要以编程方式确定 RSS 提要是公开其文章的全部内容还是仅公开它们的摘录。你会怎么做?
【问题讨论】:
标签: rss
在末尾查找“更多”、“继续”、“完整文章”、“...”或类似内容的链接。除非您想关注页面上的每个链接并从提要中查找文本以及其他内容。
【讨论】:
我不认为有一种非常干净的方法可以做到这一点,但这里有两个“hacky”方法:
我会解析 RSS 的文本,并寻找其中的任何链接。当然,那里可能有多个链接(一些链接到其他博客文章),但如果你专注于最后一个,并尝试为链接标题想出一些启发式的词(即“更多”,“阅读全文“等),你应该能够得到很多。为了更有信心,您只能查看指向原始博客的链接。
更严格的方法是让您跟踪所有链接并尝试比较 RSS 片段是否是返回页面的子集,或者是否存在大量重叠。每当网站使用真实的摘要而不是完整帖子的片段时,这可能无济于事。
【讨论】:
为什么不跟随 rss-feed 中的 url 并检查此页面上的文本是否比 rss-feed 中的更多?您需要使用 html 解析器并输入一些通用规则。
【讨论】: