【问题标题】:algorithm: analyzing web pages for tags算法:分析网页的标签
【发布时间】:2011-12-11 22:45:07
【问题描述】:

最近几天我一直在做一个项目,这个项目中有一个我实际上不知道该怎么做的任务,该项目包括分析网页以找到表征页面的标签。

嘿伙计,你所说的标签是什么意思?我所说的标签是指概括网页内容的关键字。例如,在这里,您写下您自己的标签,以便人们可以更好地发现您的问题。我所说的是构建一种算法来分析网页,以通过页面中的文本找到它的标签。

我开始从页面获取文本 -> 完成

通常我正在寻找一种方法来找到包含网页内容的关键字

但是,我真的不知道下一步该做什么。有人有什么建议吗?

【问题讨论】:

  • 你描述的是你有一些文本(无论是来自网页还是任何地方)并且想通过选择一些词来描述它并将它们声明为标签?
  • 您是否针对特定类型的网页?例如那些实现stackoverflow api的?或者您的目标是通用网页。如果是后者,那么我认为您将遇到困难。不同的网站将以自己的方式实施“标签”。如果是前者,那么它应该很简单......
  • 一般我正在寻找一种方法来找到包含网页内容的关键字

标签: c# algorithm search-engine information-retrieval information-extraction


【解决方案1】:

对于一个非常基本的方法,您可以使用TF-IDF 算法来查找页面中最重要的单词

维基百科的快速概览:

tf-idf 权重(词频-逆文档频率)是一个 权重常用于信息检索和文本挖掘。这 权重是一种统计量度,用于评估一个词的重要性 是集合或语料库中的文档。重要性增加 与单词在文档中出现的次数成正比 但是被语料库中单词的频率所抵消。变化 的 tf-idf 加权方案经常被搜索引擎用作 给定文档相关性评分和排名的中心工具 用户查询。 tf–idf 可成功用于停用词过滤 在各种主题领域,包括文本摘要和 分类

一旦您在页面中找到最重要的词,您就可以将它们用作标签。


如果您想改进您的标签并使其更具相关性。

有很多方法可以继续,但您可以按照以下方式进行:

  • 提取一堆你知道主要标签的文本。
  • 对于所有这些文本,运行 TF-IDF 算法并使用 得分最高的。
  • 尝试为所有这些向量找到一个主要方向。 (运行 ACP 例如,或任何机器学习工具)
  • 并使用这个标签来表示来自主方向的单词集。 (ACP的最大向量)

希望它可以理解并有所帮助

【讨论】:

    【解决方案2】:

    通常,您会查找被特定 html 包围的特定单词。例如,标题通常位于 H 标记中,例如 <h1>

    如果您为所有 H1 标签解析页面,那么该标签后面的内容是相关的。一个例子就是这个页面。它有一个围绕问题标题的 H1 标签。这给谷歌一个提示,该页面是关于“算法”、“分析”、“网页”等的。

    困难的部分是确定上下文。

    在我们的示例中,术语“页面”非常通用,可以与任何事物相关联。然而,“网页”更具体一点。您可以使用内部字典来完成此操作,该字典在分析大量文档以找到共性后根据词频随着时间的推移而建立。在确定给定页面的前 X 个“标签”时,频率应该提供一个加权值。

    【讨论】:

      【解决方案3】:

      这更像是一个Information Retrieval 和数据挖掘问题。回顾一些Rao's lectures 可能会有所帮助。

      当您抓取网页时,您实际上是在尝试构建索引。为此,您可以构建一个全局词频词典,其中语言中的每个词(通常是 stemmed 以说明复数和其他修改)都存储为键,并将它们在文档中出现的次数作为值存储。

      从那里,您可以使用 PageRankAuthorities and hubs 等算法进行数据分析。

      【讨论】:

        【解决方案4】:

        您可以实施许多启发式方法:

        • 首字母缩写词和单词全部大写
        • 不常用的词,即丢弃所有或大多数文档中出现的词,而偏爱仅在该文档中出现相对频繁的词。
        • 在本文档中总是以相同顺序出现的单词序列,也可能在其他文档中出现

        【讨论】:

          猜你喜欢
          • 2012-07-10
          • 1970-01-01
          • 1970-01-01
          • 2017-04-22
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多