在php中制作一个网络爬虫[关闭]答案

【问题标题】：Make a Web Crawler in php [closed]在php中制作一个网络爬虫[关闭]
【发布时间】：2013-06-10 13:31:21
【问题描述】：

我想用 PHP 构建一个网络爬虫，但我仍然对此感到困惑。我还没有找到可以工作的教程。

谁能帮助我如何用 PHP 构建爬虫？

【问题讨论】：

【解决方案1】：

构建网络爬虫涉及打开页面、解析它们以获取您想要的数据以及指向其他页面的链接，然后跟踪这些链接。对于阅读页面，您需要查看fopen() 函数。对于解析页面（包括识别链接），您需要查看regular expressions。

【讨论】：

【解决方案2】：

你也可以从这个php开源开始 sphider php search engine

【讨论】：

【解决方案3】：

首先，你应该问问自己这个爬虫是如何工作的？

PHP 的典型用途是动态准备网页（例如，在 HTML 代码中）。 PHP 生成 HTML 代码，服务器将准备好的文档发送给用户。这是在用户请求时完成的。通常，当用户打开您的页面时，您的网络爬虫就会运行，我认为这没有任何意义，因为它需要太多时间来爬取并且用户必须等待。

还有另一种可能性，即您想要抓取网页的某些部分。在这种情况下，您可以将内容存储在某个数据库中并使用 PHP 来查询数据库。但这不是爬虫，因为 db engine 已经索引了所有的内容，可以找到你需要的一切。

第三种方式是从命令行（Windows 和 Linux）运行 PHP 程序的可能性，这样爬虫将由您而不是用户运行。有关如何实现这一点的更多信息，请参阅quinxorin's answer。这个答案很简短，因为主题很广泛。

在我看来，如果你是初学者，最好不要从这么大的任务开始。首先，尝试学习如何用PHP制作简单的网页，然后您将学习如何制作爬虫。

【讨论】：