【问题标题】:Word count statistics on a web page网页上的字数统计
【发布时间】:2013-03-21 02:09:06
【问题描述】:

我正在寻找一种方法来提取任意网站上单词的基本统计信息(总计数、密度、链接计数、hrefs),最好是基于 Python 的解决方案。

虽然使用 BautifulSoup 解析特定网站并确定大部分内容的位置很容易,但它需要您在处理之前定义内容在 DOM 树中的位置。例如,对于 href 或任何任意标记来说,这很容易,但在确定其余数据(未包含在明确定义的标记中)的位置时会变得更加复杂。

如果我理解正确,Google(GoogleBot?)等公司使用的机器人能够从任何网站提取数据以确定关键字密度。我的情况类似,获取与定义网站内容的单词相关的信息(即删除 js、链接和填充符后)。

我的问题是,是否有任何库或 Web API 可以让我从任何给定页面获取有意义单词的统计信息?

【问题讨论】:

  • 自从 Summly 开始流行以来,这样的问题太多了!

标签: python nlp web-crawler beautifulsoup


【解决方案1】:

没有 API,但可以将它用作工具的库可能很少。

你应该数出有意义的单词并按时间记录下来。

你也可以这样开始:

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

【讨论】:

  • 感谢您的回答,我真的很想知道哪些特定的库适合此目的。
  • 我会寻找它...但这里有一个关于 Visual Studio 中 MS 字数统计的示例,只是为了了解一下。 forums.asp.net/t/1385946.aspx/1
【解决方案2】:

有多个库处理更高级的网络文章处理,这个问题应该是this one的副本。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-06-28
    • 1970-01-01
    • 2012-01-12
    • 1970-01-01
    • 1970-01-01
    • 2012-09-29
    • 2016-09-15
    相关资源
    最近更新 更多