【发布时间】:2011-12-26 12:25:20
【问题描述】:
我最近刚刚对搜索引擎的工作原理产生了兴趣,发现它们使用“机器人”或“网络爬虫”。我立即开始想知道这些东西是如何工作的,我想创造一个!那么,首先:如何制作一个从服务器请求页面的程序?如果您给我一个简单的 JavaScript 示例(我使用 Node 将它作为普通脚本语言运行),那就太棒了。接下来,有没有让我解释 HTML 的 Node 模块?为我创建一个 DOM,以便我可以循环遍历所有链接等等?如果我错了,请纠正我,但我想它是这样做的......任何 C++、C 或 Python 中的示例也受到热烈欢迎,尽管我更喜欢 JS 或 Python,因为我更熟悉高级脚本语言。
【问题讨论】:
标签: javascript node.js web-crawler