使用python检测网页更新

【问题标题】：Detecting web page updates with python使用python检测网页更新
【发布时间】：2012-06-26 07:46:55
【问题描述】：

检查网页更改的最简单方法是什么？我想每隔一段时间扫描一次网页，并将其与较旧的扫描进行比较。一个问题是我还需要扫描以忽略某些更改，例如一天中的时间等。我只想检查相关更新。

【问题讨论】：

也许看看scrapy。最简单的方法是下载页面（使用urllib）并与旧版本进行比较。

标签： python html parsing text web

【解决方案1】：

我不会写代码，但我会给你我解决这个问题的过程：

检索页面的来源
更换所有零件我们不想监控的页面的数量
计算 md5 或替换后源的 sha1 哈希
比较用存储的散列散列，看看它是否不同，然后做任何事情如果页面已更新，您需要这样做
存储新哈希

【讨论】：

我将如何更换不断变化的零件？例如显示一天中的时间。我第一次尝试使用 urllib2，但奇怪的错误不断出现。我试图使用 a.read()[xxx:yyy] 专注于页面源的某些区域，这似乎有效，但由于某种原因，保存的值会变为空，并且 urllib2.urlopen 返回的信息似乎完全错误（甚至无法在网页上找到它）。所以现在我很困惑。
研究使用regular expressions。它们非常方便。

猜你喜欢

1970-01-01
2014-10-02
1970-01-01
2013-07-25
1970-01-01
2013-04-30
2014-12-13
2017-02-03
1970-01-01

相关资源

下载 2023-04-09
下载 2023-03-04
下载 2022-12-24

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode