【问题标题】:How does Google Reader extract news items from a web page?Google Reader 如何从网页中提取新闻?
【发布时间】:2011-12-27 06:54:27
【问题描述】:

我想知道 Google Reader 如何从网页中提取新闻。

你们中有人知道它是如何工作的吗?或者某人如何构建一个类似的系统来从网页的 HTML 中提取相同的信息。

显然它没有使用标准(也不是只读取 RSS/ATOM),因为 Google Reader 证明无论标记看起来如何,它都可以读取页面内容。

【问题讨论】:

  • Google 阅读器没有您描述的功能。它曾经具有“跟踪更改”功能 (googlereader.blogspot.com/2010/01/…),但已被删除 (googlereader.blogspot.com/2010/09/…)。
  • 那么为什么订阅任何博客类型的网页都能正确显示新闻呢?例如jesseliberty.com
  • jesseliberty.com 有一个 RSS 提要,这由 jesseliberty.com/feed" /> 元素的存在表示.当给定常规页面的 URL 时,Google 阅读器(和其他 RSS 阅读器)会查找此“自动发现”元素”并订阅它指向的提要 URL。
  • 谢谢米海,你是英雄:)
  • 因为它们看起来很有帮助,所以我已经发布了我的 cmets 的内容作为答案。

标签: algorithm search rss google-reader


【解决方案1】:

Google 阅读器目前不会从原始网页中提取任何类型的内容。它曾经有一个"track changes to arbitrary pages" feature,但那是一年多前的removed

当给定的 URL 不是供稿的 URL 时,Google 阅读器会获取其内容。如果内容是 HTML,它会查找 <link rel="alternate" type="application/atom+xml" href="feed.xml"> 形式的 autodiscovery 元素。如果找到,它会订阅该提要。

【讨论】:

    【解决方案2】:

    您已经通过使用“RSS”标记您的问题来回答您的问题。

    无论如何,Google 阅读器和所有其他 RSS/Atom 阅读器一样阅读 RSS 或 Atom 提要。你可能想看看相应的维基百科文章:http://en.wikipedia.org/wiki/RSS

    【讨论】:

    • 这是不对的,谷歌阅读器也从 html 页面读取内容,这是这个问题的主题。 RSS 被添加到标签中,以吸引对 RSS 感兴趣的人的注意力。
    • 哦,对不起!我不知道该功能(显然仅适用于英文版和英文页面)。但这也可能意味着他们以某种方式解析网站本身中的句子/单词......
    • 它也适用于其他语言(就我正在使用它而言);)
    猜你喜欢
    • 2011-02-14
    • 2012-04-21
    • 2012-03-09
    • 1970-01-01
    • 2014-11-08
    • 2011-12-18
    • 1970-01-01
    • 2016-08-16
    • 2022-01-19
    相关资源
    最近更新 更多