【发布时间】:2011-12-11 22:45:07
【问题描述】:
最近几天我一直在做一个项目,这个项目中有一个我实际上不知道该怎么做的任务,该项目包括分析网页以找到表征页面的标签。
嘿伙计,你所说的标签是什么意思?我所说的标签是指概括网页内容的关键字。例如,在这里,您写下您自己的标签,以便人们可以更好地发现您的问题。我所说的是构建一种算法来分析网页,以通过页面中的文本找到它的标签。
我开始从页面获取文本 -> 完成
通常我正在寻找一种方法来找到包含网页内容的关键字
但是,我真的不知道下一步该做什么。有人有什么建议吗?
【问题讨论】:
-
你描述的是你有一些文本(无论是来自网页还是任何地方)并且想通过选择一些词来描述它并将它们声明为标签?
-
您是否针对特定类型的网页?例如那些实现stackoverflow api的?或者您的目标是通用网页。如果是后者,那么我认为您将遇到困难。不同的网站将以自己的方式实施“标签”。如果是前者,那么它应该很简单......
-
一般我正在寻找一种方法来找到包含网页内容的关键字
标签: c# algorithm search-engine information-retrieval information-extraction