【发布时间】:2009-02-07 02:15:36
【问题描述】:
我习惯于创建一些爬虫来编译信息,当我来到一个网站时,我需要这些信息,我为该网站启动了一个新的爬虫,大部分时间使用 shell 脚本,有时使用 PHP。
我的方法是使用简单的for 来迭代页面列表,使用wget 下载它,然后使用sed、tr、awk 或其他实用程序来清理页面并获取我需要的具体信息。
所有过程都需要一些时间,具体取决于站点以及更多时间来下载所有页面。而且我经常进入一个让一切变得复杂的 AJAX 网站
我想知道是否有更好的方法,更快的方法,甚至是一些应用程序或语言来帮助完成这项工作。
【问题讨论】:
标签: web-crawler