Web 抓取 python 脚本作为 Cron 作业挂起答案

【问题标题】：Web scraping python script hangs as Cron jobWeb 抓取 python 脚本作为 Cron 作业挂起
【发布时间】：2021-05-15 10:40:43
【问题描述】：

我有一个 python 网络抓取脚本，在手动启动时运行良好。但是当它作为 cron 作业启动时，它总是挂起。

cron 作业以我的用户身份运行，因为我使用 crontab -e 作为我的用户创建了它

我不知道为什么它不能作为一个 cron 工作

【问题讨论】：

你可以考虑使用schedule库来cron python任务
你的意思是pypi.org/project/schedule ??

标签： python selenium cron

【解决方案1】：

我在 Ubuntu 20.04 中遇到了同样的问题。我创建了一个名为“scrape”的脚本并将其放在 /etc/cron.hourly 文件夹中。

#!/bin/sh
cd /home/xxyyzz/project/scrape
RESULT=$(sudo -u xxyyzz python3 scrape.py)
/usr/bin/logger -t scrape $RESULT

当我手动执行时脚本运行良好...

cd /etc/cron.hourly
sudo run-parts .

但它不会从 CRON 运行。我唯一不确定的是我的 python 脚本中 selenium webdriver 的行为。它会打开一个 Firefox 实例来进行抓取，当我手动执行时我可以清楚地看到它。我想知道从 CRON 运行时是否无法访问显示。日志中没有任何内容可以告诉我发生了什么，因此我将重试并使用日志消息检测所有异常路径。

【讨论】：