【发布时间】:2011-02-19 15:40:02
【问题描述】:
我有一个爬虫,它从网络上收集文章并将标题和正文存储到数据库中。到目前为止,程序员必须为每个源(通常是 XPath,有时是正则表达式)提出一组规则,以指向网页的文章标题和正文部分。现在我正试图向前迈出一步,让程序自动检测文章的标题和正文。我的第一种方法是根据一些通用标准为每个元素添加权重。例如:
//@x-weight = 1.0
//h1/@x-weight * 2.0
//h2/@x-weight * 1.8
还有很多规则,但你明白了。在根据标记分配权重后,我会考虑其他一些方面,例如与/head/title 的相似性和关键字的数量。这种方法虽然为大多数网页产生了不错的结果(感谢 SEO 专家:P),但对于其他一些网页来说却是灾难性的失败。我正在考虑使用artificial neural network 的可能性,但我找不到足够的证据证明我会得到明显更好的结果。另一种选择是将 CSS 引入游戏并根据字体大小调整权重。
问题:
- 我应该选择哪条路?
- 我错过了什么吗?
- 有更好的方法吗?
PS:我知道这样的问题没有完美的解决方案。
【问题讨论】:
标签: c# html web-crawler neural-network