【发布时间】:2016-03-25 22:03:26
【问题描述】:
我正在从 clean-mx 下载大型网络钓鱼/病毒站点数据库
钓鱼数据库 = http://support.clean-mx.de/clean-mx/xmlphishing.php
病毒库 = http://support.clean-mx.de/clean-mx/xmlviruses.php
现在的问题是这些 xml 文件的大小约为每个 +30Mb,下载它们大约需要 1 分钟,我需要更快地下载它们...
我使用urllib.urlretrieve下载它们。
我需要这些文件来构建包含这些数据库中的 url 的 xml 数据库,我尝试阅读它们,希望它应该比使用urllib.urlopen 下载它们更快,但下载它们甚至更慢。
您有什么想法可以使用这些文件(下载或读取)以更快的性能构建我的数据库吗?
注意:只需要使用这些文件,我已经编写了快速构建数据库的代码
【问题讨论】:
-
你提到的网站需要登录,所以其他人无法测试下载速度。您是在网络浏览器中还是通过
wget或curl等命令行工具获得更快的下载?可能是服务器只是限制了下载速度。 -
你不需要登录,我下载这个文件没有登录网站...看看support.clean-mx.de/clean-mx/viruses.php和support.clean-mx.de/clean-mx/phishing.php我只是添加xml并且网站返回xml输出(看看行“与 xml 输出相同的查询”)我也通过 wget 尝试过,它与
urllib.urlretrieve相同 -
为什么需要更快地下载它们?下载一次就足够了(取决于您的用例)。也许有另一种方法而不是经常下载文件?
-
每小时我删除它们并再次下载它们以进行更新(它们每半小时更新一次数据库)