网页上的字数统计答案

【问题标题】：Word count statistics on a web page网页上的字数统计
【发布时间】：2013-03-21 02:09:06
【问题描述】：

我正在寻找一种方法来提取任意网站上单词的基本统计信息（总计数、密度、链接计数、hrefs），最好是基于 Python 的解决方案。

虽然使用 BautifulSoup 解析特定网站并确定大部分内容的位置很容易，但它需要您在处理之前定义内容在 DOM 树中的位置。例如，对于 href 或任何任意标记来说，这很容易，但在确定其余数据（未包含在明确定义的标记中）的位置时会变得更加复杂。

如果我理解正确，Google（GoogleBot？）等公司使用的机器人能够从任何网站提取数据以确定关键字密度。我的情况类似，获取与定义网站内容的单词相关的信息（即删除 js、链接和填充符后）。

我的问题是，是否有任何库或 Web API 可以让我从任何给定页面获取有意义单词的统计信息？

【问题讨论】：

自从 Summly 开始流行以来，这样的问题太多了！

标签： python nlp web-crawler beautifulsoup

【解决方案1】：

没有 API，但可以将它用作工具的库可能很少。

你应该数出有意义的单词并按时间记录下来。

你也可以这样开始：

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

【讨论】：

感谢您的回答，我真的很想知道哪些特定的库适合此目的。
我会寻找它...但这里有一个关于 Visual Studio 中 MS 字数统计的示例，只是为了了解一下。 forums.asp.net/t/1385946.aspx/1

【解决方案2】：

有多个库处理更高级的网络文章处理，这个问题应该是this one的副本。

【讨论】：