【发布时间】:2014-04-05 11:56:59
【问题描述】:
Here 是查询what is benzene 的快照。
Google 通常会提供位于响应查询的文档或网站的摘要。 用户浏览此类摘要,通常会选择与最匹配搜索的摘要相关联的链接。
我想知道 Google 如何提供最准确的网页摘要。
我已经通过选择任何查询的关键字(snippets) 并使用Cosine Similarity 计算sn-ps 和网页中每个句子之间的距离来尝试这个,并选择得分最高但结果不令人满意的句子。我想知道是否有更好的算法或任何替代方法来生成 Web 文档的摘要?
【问题讨论】:
-
你不可能让谷歌的任何人在这里告诉你他们的算法。
-
是什么让 Google 搜索在构建 sn-ps 方面如此高效,它收集了它在自己的页面(搜索结果、youtube、google+)和包含 adwords 块的页面上收集的统计信息。它收集所有内容:点击链接、滚动,甚至鼠标悬停。
-
@DavidWallace 很明显,谷歌不会公开那里的算法,但会有一种通用技术或任何 NLP 分类器来生成摘要,这就是我想要在这里得到的。
标签: java nlp google-search stanford-nlp opennlp