【问题标题】:Data crawler or something else数据爬虫或其他
【发布时间】:2015-11-06 07:29:27
【问题描述】:

我正在寻找一些我不知道该怎么做的东西。我对抓取、报废等方面没有深入的了解,但我相信我正在寻找的技术就是这些。

  1. 我有一个大约 100 个网站的列表,我想经常监控这些网站。至少每 3 或 4 天一次。在这些网站中,我会寻找一些符合逻辑的匹配项,例如:

文本包含“ABC”且不包含“BCZ” 或文本包含“XYZ”且不包含“ATM” 以此类推

  1. 该工具必须查看以下网站:

    • 网页
    • DOC 文件
    • DOCX 文件
    • XLS 文件
    • XLSX 文件
    • TXT 文件
    • RTF 文件
    • PDF 文件
    • RAR 和 ZIP 文件
  2. 匹配必须是增量的(我只想要最近 X 天的匹配)

  3. 最重要的是,在这 100 个网站中,大约有 40 个需要用户身份验证(我已经这样做了)。

  4. 只要有比赛,我就想下载:

    • 文件
    • 链接
    • 日期/时间
    • 匹配报告

我一直在使用 import.io 之类的工具,但我还没有弄清楚如何正确操作!

有人确切知道我在寻找哪种技术吗?谁(什么样的专家,程序员)可以为我构建这个?懂数据爬取的程序员构建它是不是太难了?

抱歉,帖子太长了

【问题讨论】:

  • 嗨,加布里埃尔!正如 Cameron 提到的,backstitch 可以帮助您完成大部分您想做的事情。大声告诉我,我很乐意向您介绍如何构建它:电子邮件 jordan[AT]backstit.ch

标签: web-crawler import.io


【解决方案1】:

对于60个不需要认证的网站:

您可以使用backstitch 之类的工具来标记您要监控的网站,并获取包含您想要的关键字内容的页面的交互式缩略图提要。 Backstitch 支持使用布尔运算符(您描述的 AND / OR 功能),并且有一个 API 可以让您以您需要的格式导出结果。

他们的支持团队(和 CEO)过去在描述他们的 API 如何用于自定义搜索案例方面非常有帮助。祝你好运!

【讨论】:

  • 感谢 Cameron 的参考 - 我认为这是我们可以帮助 Gabriel 至少 70% 的事情。
  • 谢谢,卡梅伦!我想它部分涵盖了我不会。我会和他们谈谈并试一试!
猜你喜欢
  • 2012-08-08
  • 2012-04-29
  • 2019-11-07
  • 2012-05-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-06-24
相关资源
最近更新 更多