【问题标题】:What is the easiest way to compare two web pages using python?使用python比较两个网页的最简单方法是什么?
【发布时间】:2011-07-11 06:27:27
【问题描述】:

您好,我想使用 python 脚本比较两个网页。 我怎样才能实现它?提前致谢!

【问题讨论】:

  • 你想比较什么?您是否只想知道它们是否完全相同?或者它们看起来是否一样?

标签: python comparison nlp


【解决方案1】:

首先,您要检索两个网页。可以使用wget、urlretrieve等:
wget Vs urlretrieve of python

其次,您要“比较”页面。正如钦梅所说,您可以使用“差异”工具。也可以对两个页面做关键词分析:

  1. 解析页面中的所有关键字。例如How do I extract keywords used in text?
  2. 可以选择使用类似以下内容的单词的“词干”:
    http://pypi.python.org/pypi/stemming/1.0
  3. 使用一些数学来比较两个页面的关键字,例如词频-逆文档频率:http://en.wikipedia.org/wiki/Tf%E2%80%93idf 有一些 Python 工具,例如:http://wiki.python.org/moin/InformationRetrieval

【讨论】:

  • 感谢您的详细评论!这有很大帮助!
【解决方案2】:

比较是什么意思?如果您只是想找出两个文件之间的差异,请尝试difflib,它是标准 Python 库的一部分。

【讨论】:

    猜你喜欢
    • 2015-12-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-07-15
    • 1970-01-01
    • 1970-01-01
    • 2012-02-15
    • 1970-01-01
    相关资源
    最近更新 更多