【发布时间】:2011-11-09 08:13:45
【问题描述】:
我正在尝试创建一种算法,根据在页面上找到的关键字设置与网页的相关性。
我现在正在这样做:
我为它们设置了一些单词和一个值:"movie"(10), "cinema"(6), "actor"(5) 和 "hollywood"(4) 并搜索页面的某些部分,为每个部分赋予权重并乘以单词权重。
示例:在 URL(1.5) * 10 和 title(2.5) * 10 中发现了 “电影”一词 = 40
这是垃圾!这是我的第一次尝试,它返回了一些相关的结果,但我认为由 244、66、30、15 之类的值确定的相关性没有用。
我想做一些在 0 到 1 或 1 到 100 范围内的事情。
我可以使用哪种类型的词权重?
除此之外,除了主要内容之外,还有现成的算法可以根据 URL、关键字、标题等设置 HTML 页面的相关性?
编辑 1:所有这些都可以重建,权重是随机的,我想使用一些简洁的权重,而不是 ramdon 数字来表示权重,例如 10、5 和 3。
类似:low importance = 1、medium importance = 2、high importante = 4、deterministic importance = 8。
Title > Link Part of URL > Domain > Keywordsmovie > cinema> actor > hollywood
编辑 2: 目前,我想分析除页面的 body content 之外的单词的页面相关性。我将在分析中包括域、url 的链接部分、标题、关键字(以及我认为有用的其他元信息)。
原因是 HTML 内容是脏的。我可以在菜单和广告中找到很多像“电影”这样的词,但页面的主要内容不包含与主题相关的任何内容。
另一个原因是某些页面具有元信息,表明该页面包含有关电影的信息,但主要内容没有。示例:一个页面包含讲述历史、人物等的电影情节,但在该文本中没有提及任何可以表明这是关于电影的内容,只有页面元信息。
稍后,在对 HTML 页面进行相关性分析后,我将单独对内容(过滤后的)进行相关性分析。
【问题讨论】:
-
如果你能找出最大可能的相关值,你就可以得到分数,并使用最大值找到一个百分比,给你一个 1-100 的比例。
标签: java html algorithm classification information-retrieval