【发布时间】:2011-02-14 12:04:33
【问题描述】:
我正在做一个大学项目,该项目必须收集和组合用户提供的主题的数据。我遇到的问题是,许多术语的谷歌搜索结果都被低质量的自动生成页面污染了,如果我使用它们,我最终可能会得到错误的事实。如何估计页面的质量/可信度?
您可能会认为“不,Google 工程师已经为这个问题工作了 10 年,他正在寻求解决方案”,但如果您考虑一下,SE 必须提供最新的内容,如果它标志着一个好的页面作为一个坏的,用户会不满意。我没有这样的限制,所以如果算法不小心将一些好的页面标记为坏,那也不是问题。
这是一个例子:
假设输入是buy aspirin in south la。尝试谷歌搜索它。前 3 个结果已从网站中删除,但第四个结果很有趣:radioteleginen.ning.com/profile/BuyASAAspirin(我不想创建活动链接)
这是正文的第一段:
从加拿大购买处方药的机会很大 此刻在美国。这是 因为在美国处方药 价格暴涨使其成为 对于那些限制有限或 集中收入购买他们的很多东西 需要的药物。美国人付出更多 他们的毒品比世界上的任何人 类。
文本的其余部分类似,然后是相关关键字列表。这是我认为的低质量页面。虽然这个特定的文本似乎有道理(除了它很可怕),但我见过的其他例子(但现在找不到)只是一些垃圾,其目的是从谷歌获得一些用户并在创建后 1 天被禁止.
【问题讨论】:
-
您的问题到底是什么?您能否更详细地说明“质量/可信度”?
-
这个编程有什么关系?
-
你距离要求通用 AI 还差 1 英寸。
-
@roddik 这是搜索引擎的圣杯——尽管拥有 5 亿美元的预算和一些最聪明的大脑,但 Google 无法为此提供通用解决方案是有原因的在这个星球上。 :)
-
@Jeff 这个 not 编程有什么关系?如果我没记错的话,他说的是以编程方式衡量搜索结果的相关性。不是吗?
标签: machine-learning nlp spam information-retrieval