【发布时间】:2014-02-16 19:57:10
【问题描述】:
我在家里有一个小项目,我需要每隔一段时间抓取一个网站的链接并将链接保存在 txt 文件中。
该脚本需要在我的 Synology NAS 上运行,因此该脚本需要使用 bash 脚本或 python 编写,而不使用任何插件或外部库,因为我无法将它安装在 NAS 上。 (据我所知)
链接如下所示:
<a href="http://www.example.com">Example text</a>
我想将以下内容保存到我的文本文件中:
Example text - http://www.example.com
我在想我可以用 curl 和一些 grep(或者可能是正则表达式)来隔离文本。首先我研究了使用 Scrapy 或 Beutifulsoup,但找不到在 NAS 上安装它的方法。
你们谁能帮我把脚本放在一起吗?
【问题讨论】:
-
一个典型的网页可能包含许多 NOT 链接的“http...”字符串,我很确定你不想把它们刮掉网站。您可能希望找到所有
<href>标签,并仅从这些元素中获取链接。您能否提供您要抓取的网页的网址?