【发布时间】:2015-11-06 07:29:27
【问题描述】:
我正在寻找一些我不知道该怎么做的东西。我对抓取、报废等方面没有深入的了解,但我相信我正在寻找的技术就是这些。
- 我有一个大约 100 个网站的列表,我想经常监控这些网站。至少每 3 或 4 天一次。在这些网站中,我会寻找一些符合逻辑的匹配项,例如:
文本包含“ABC”且不包含“BCZ” 或文本包含“XYZ”且不包含“ATM” 以此类推
-
该工具必须查看以下网站:
- 网页
- DOC 文件
- DOCX 文件
- XLS 文件
- XLSX 文件
- TXT 文件
- RTF 文件
- PDF 文件
- RAR 和 ZIP 文件
匹配必须是增量的(我只想要最近 X 天的匹配)
最重要的是,在这 100 个网站中,大约有 40 个需要用户身份验证(我已经这样做了)。
-
只要有比赛,我就想下载:
- 文件
- 链接
- 日期/时间
- 匹配报告
我一直在使用 import.io 之类的工具,但我还没有弄清楚如何正确操作!
有人确切知道我在寻找哪种技术吗?谁(什么样的专家,程序员)可以为我构建这个?懂数据爬取的程序员构建它是不是太难了?
抱歉,帖子太长了
【问题讨论】:
-
嗨,加布里埃尔!正如 Cameron 提到的,backstitch 可以帮助您完成大部分您想做的事情。大声告诉我,我很乐意向您介绍如何构建它:电子邮件 jordan[AT]backstit.ch
标签: web-crawler import.io