【发布时间】:2013-03-21 02:09:06
【问题描述】:
我正在寻找一种方法来提取任意网站上单词的基本统计信息(总计数、密度、链接计数、hrefs),最好是基于 Python 的解决方案。
虽然使用 BautifulSoup 解析特定网站并确定大部分内容的位置很容易,但它需要您在处理之前定义内容在 DOM 树中的位置。例如,对于 href 或任何任意标记来说,这很容易,但在确定其余数据(未包含在明确定义的标记中)的位置时会变得更加复杂。
如果我理解正确,Google(GoogleBot?)等公司使用的机器人能够从任何网站提取数据以确定关键字密度。我的情况类似,获取与定义网站内容的单词相关的信息(即删除 js、链接和填充符后)。
我的问题是,是否有任何库或 Web API 可以让我从任何给定页面获取有意义单词的统计信息?
【问题讨论】:
-
自从 Summly 开始流行以来,这样的问题太多了!
标签: python nlp web-crawler beautifulsoup