Google Reader 如何从网页中提取新闻？答案

【问题标题】：How does Google Reader extract news items from a web page?Google Reader 如何从网页中提取新闻？
【发布时间】：2011-12-27 06:54:27
【问题描述】：

我想知道 Google Reader 如何从网页中提取新闻。

你们中有人知道它是如何工作的吗？或者某人如何构建一个类似的系统来从网页的 HTML 中提取相同的信息。

显然它没有使用标准（也不是只读取 RSS/ATOM），因为 Google Reader 证明无论标记看起来如何，它都可以读取页面内容。

【问题讨论】：

Google 阅读器没有您描述的功能。它曾经具有“跟踪更改”功能 (googlereader.blogspot.com/2010/01/…)，但已被删除 (googlereader.blogspot.com/2010/09/…)。
那么为什么订阅任何博客类型的网页都能正确显示新闻呢？例如jesseliberty.com
jesseliberty.com 有一个 RSS 提要，这由 jesseliberty.com/feed" /> 元素的存在表示.当给定常规页面的 URL 时，Google 阅读器（和其他 RSS 阅读器）会查找此“自动发现”元素”并订阅它指向的提要 URL。
谢谢米海，你是英雄:)
因为它们看起来很有帮助，所以我已经发布了我的 cmets 的内容作为答案。

标签： algorithm search rss google-reader

【解决方案1】：

Google 阅读器目前不会从原始网页中提取任何类型的内容。它曾经有一个"track changes to arbitrary pages" feature，但那是一年多前的removed。

当给定的 URL 不是供稿的 URL 时，Google 阅读器会获取其内容。如果内容是 HTML，它会查找 <link rel="alternate" type="application/atom+xml" href="feed.xml"> 形式的 autodiscovery 元素。如果找到，它会订阅该提要。

【讨论】：

【解决方案2】：

您已经通过使用“RSS”标记您的问题来回答您的问题。

无论如何，Google 阅读器和所有其他 RSS/Atom 阅读器一样阅读 RSS 或 Atom 提要。你可能想看看相应的维基百科文章：http://en.wikipedia.org/wiki/RSS

【讨论】：

这是不对的，谷歌阅读器也从 html 页面读取内容，这是这个问题的主题。 RSS 被添加到标签中，以吸引对 RSS 感兴趣的人的注意力。
哦，对不起！我不知道该功能（显然仅适用于英文版和英文页面）。但这也可能意味着他们以某种方式解析网站本身中的句子/单词......
它也适用于其他语言（就我正在使用它而言）；）