【问题标题】:Detecting web page updates with python使用python检测网页更新
【发布时间】:2012-06-26 07:46:55
【问题描述】:

检查网页更改的最简单方法是什么?我想每隔一段时间扫描一次网页,并将其与较旧的扫描进行比较。一个问题是我还需要扫描以忽略某些更改,例如一天中的时间等。我只想检查相关更新。

【问题讨论】:

  • 也许看看scrapy。最简单的方法是下载页面(使用urllib)并与旧版本进行比较。

标签: python html parsing text web


【解决方案1】:

我不会写代码,但我会给你我解决这个问题的过程:

  1. 检索页面的来源
  2. 更换所有零件 我们不想监控的页面的数量
  3. 计算 md5 或 替换后源的 sha1 哈希
  4. 比较 用存储的散列散列,看看它是否不同,然后做任何事情 如果页面已更新,您需要这样做
  5. 存储新哈希

【讨论】:

  • 我将如何更换不断变化的零件?例如显示一天中的时间。我第一次尝试使用 urllib2,但奇怪的错误不断出现。我试图使用 a.read()[xxx:yyy] 专注于页面源的某些区域,这似乎有效,但由于某种原因,保存的值会变为空,并且 urllib2.urlopen 返回的信息似乎完全错误(甚至无法在网页上找到它)。所以现在我很困惑。
  • 研究使用regular expressions。它们非常方便。
猜你喜欢
  • 1970-01-01
  • 2014-10-02
  • 1970-01-01
  • 2013-07-25
  • 1970-01-01
  • 2013-04-30
  • 2014-12-13
  • 2017-02-03
  • 1970-01-01
相关资源
最近更新 更多