【问题标题】:how does google gives summary of the page谷歌如何给出页面摘要
【发布时间】:2014-04-05 11:56:59
【问题描述】:

Here 是查询what is benzene 的快照。

Google 通常会提供位于响应查询的文档或网站的摘要。 用户浏览此类摘要,通常会选择与最匹配搜索的摘要相关联的链接。

我想知道 Google 如何提供最准确的网页摘要。 我已经通过选择任何查询的关键字(snippets) 并使用Cosine Similarity 计算sn-ps 和网页中每个句子之间的距离来尝试这个,并选择得分最高但结果不令人满意的句子。我想知道是否有更好的算法或任何替代方法来生成 Web 文档的摘要?

【问题讨论】:

  • 你不可能让谷歌的任何人在这里告诉你他们的算法。
  • 是什么让 Google 搜索在构建 sn-ps 方面如此高效,它收集了它在自己的页面(搜索结果、youtube、google+)和包含 adwords 块的页面上收集的统计信息。它收集所有内容:点击链接、滚动,甚至鼠标悬停。
  • @DavidWallace 很明显,谷歌不会公开那里的算法,但会有一种通用技术或任何 NLP 分类器来生成摘要,这就是我想要在这里得到的。

标签: java nlp google-search stanford-nlp opennlp


【解决方案1】:

您可以用来提供摘要的是使用 w 元描述标签。谷歌也在使用它,除非机器人决定他可以生成更准确的描述,更准确意味着更适合您的搜索查询。例如,您发布的图片的摘要之一直接来自描述

<meta name="description" content="Benzene is a colorless, flammable liquid with a sweet odor. Learn what we know about benzene and cancer risk." />

除非您正在编写搜索网页以外的其他类型的文档。许多文档浏览器所做的只是给您一个匹配关键字的句子(或之前/之后的几个词)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多