【问题标题】:Best way to get word frequency counts for a website? Or part of a website?获取网站词频计数的最佳方法?还是网站的一部分?
【发布时间】:2013-05-09 11:49:57
【问题描述】:

很简单,我只是在寻找一种从给定网站或网站部分中提取词频的简单方法。

我还对计算整个网站中两个给定单词之间的平均距离感兴趣。距离单位是单词。

我问这个问题是因为坦率地说,我无法找到太多信息来引导执行此类任务的直觉。我没有任何网络蜘蛛或任何形式的抓取经验。

谢谢(我之前问过这个问题,但不是很好)

【问题讨论】:

  • 也许你可以通过搜索'python str_word_count'得到一些想法。 (str_word_count 是一个 PHP 函数,它返回字符串的字数)

标签: javascript python html web-scraping


【解决方案1】:

您可以尝试使用Scrapy。它是用于抓取网站的非常强大的工具,但可能需要了解正则表达式和 XPath。尝试关注tutorial

【讨论】:

    猜你喜欢
    • 2011-09-20
    • 1970-01-01
    • 1970-01-01
    • 2011-10-09
    • 2012-06-20
    • 2019-11-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多