【发布时间】:2011-12-27 06:54:27
【问题描述】:
我想知道 Google Reader 如何从网页中提取新闻。
你们中有人知道它是如何工作的吗?或者某人如何构建一个类似的系统来从网页的 HTML 中提取相同的信息。
显然它没有使用标准(也不是只读取 RSS/ATOM),因为 Google Reader 证明无论标记看起来如何,它都可以读取页面内容。
【问题讨论】:
-
Google 阅读器没有您描述的功能。它曾经具有“跟踪更改”功能 (googlereader.blogspot.com/2010/01/…),但已被删除 (googlereader.blogspot.com/2010/09/…)。
-
那么为什么订阅任何博客类型的网页都能正确显示新闻呢?例如jesseliberty.com
-
jesseliberty.com 有一个 RSS 提要,这由 jesseliberty.com/feed" /> 元素的存在表示.当给定常规页面的 URL 时,Google 阅读器(和其他 RSS 阅读器)会查找此“自动发现”元素”并订阅它指向的提要 URL。
-
谢谢米海,你是英雄:)
-
因为它们看起来很有帮助,所以我已经发布了我的 cmets 的内容作为答案。
标签: algorithm search rss google-reader