【问题标题】:How to create a web crawler with Node.js? [closed]如何使用 Node.js 创建网络爬虫? [关闭]
【发布时间】:2011-12-26 12:25:20
【问题描述】:

我最近刚刚对搜索引擎的工作原理产生了兴趣,发现它们使用“机器人”或“网络爬虫”。我立即开始想知道这些东西是如何工作的,我想创造一个!那么,首先:如何制作一个从服务器请求页面的程序?如果您给我一个简单的 JavaScript 示例(我使用 Node 将它作为普通脚本语言运行),那就太棒了。接下来,有没有让我解释 HTML 的 Node 模块?为我创建一个 DOM,以便我可以循环遍历所有链接等等?如果我错了,请纠正我,但我想它是这样做的......任何 C++、C 或 Python 中的示例也受到热烈欢迎,尽管我更喜欢 JS 或 Python,因为我更熟悉高级脚本语言。

【问题讨论】:

标签: javascript node.js web-crawler


【解决方案1】:
  • 获取 HTTP 页面:node http.get(有示例)
  • DOM 文档:jsdom(也包括示例)

【讨论】:

  • 谢谢!这正是我一直在寻找的,现在,还有一件事:我如何将这两者结合起来?用http.get加载一个页面,然后喂给jsdom?
  • 好的,很好,但是我要喂它什么以及如何喂它? “res”对象?到 jsdom.env?
  • 几乎正确 - 而不是提供 res 对象,您应该提供数据给它。我建议尝试一下。我自己从来没有使用过这些。
猜你喜欢
  • 1970-01-01
  • 2011-07-07
  • 1970-01-01
  • 1970-01-01
  • 2023-04-01
  • 1970-01-01
  • 2015-03-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多