【发布时间】:2018-09-08 07:04:33
【问题描述】:
有一个 python script 允许通过处理带有标识符 (DOI/URL) 列表的文件来进行批量下载。然而,Sci-hub 非常擅长追踪此类行为,因此需要在相当长的时间内进行小批量操作和/或不断更改代理以保持不被发现。
然而,我的想法是这可能是自动化的(根据我几乎不存在的 python 知识,这应该是关键部分)。
elif args.file:
with open(args.file, 'r') as f:
identifiers = f.read().splitlines()
for identifier in identifiers:
result = sh.download(identifier, args.output)
if 'err' in result:
logger.debug('%s', result['err'])
else:
logger.debug('Successfully downloaded file with identifier %s', identifier)
那么有没有可能:
- 统计已处理的字符串数
- 运行一个循环,每 10 次迭代执行一次特定操作(例如,开始暂停 3-5 分钟)
【问题讨论】:
-
您可能想先阅读此内容....然后了解这个可怜的人最终发生的事情的故事....非常难过。 wired.com/2011/07/swartz-arrest
-
@octofus:这两个问题的答案可能都是肯定的。但是您需要展示您编写的代码,告诉我们哪些代码不起作用,并让我们从那里提供帮助。不太可能有人会为您编写代码。