【发布时间】:2013-03-07 22:50:13
【问题描述】:
我一直在构建一个搜索引擎,但现在我需要一个可以在 PHP 中抓取我的网站内容的网络爬虫。
我不知道网络爬虫/蜘蛛是否是正确的词,但我希望并想知道是否有人可以帮助我编写一个简单的 PHP 脚本来打开以 .php 或 .html 结尾的域中的所有页面,并且获取页面中的内容并将其作为原始文本存储在变量中。每页一个变量。
如果有人知道一个很好的开源脚本可以做到这一点或可以帮助我编写一个,请分享或这样做 - 我将非常感谢所有和任何帮助。
【问题讨论】:
-
周围有很多这样的 - 大多数可能会将页面转储到数据库中。见:stackoverflow.com/search?q=crawler+php
-
您可以使用 PHP 的
DOMDocument类、Simple HTML DOM Parser 或 Symfony DomCrawer 组件等等 -
@halfer 啊,谢谢。
-
@Adam-E 好的,谢谢!我会调查这些。
标签: php web-crawler