关于从互联网上蜘蛛/抓取/收集音频内容的最佳方式的建议/提示答案

【问题标题】：Advice/Tips on what the best way to spider/crawl/collect audio content from the internet关于从互联网上蜘蛛/抓取/收集音频内容的最佳方式的建议/提示
【发布时间】：2010-12-15 07:07:21
【问题描述】：

我真正想做的是弄清楚 BEEMP3.COM 是如何工作的。

由于网站的速度，我怀疑他们会当场抓取其他网站/资源。他们可能使用某种数据库（PostgreSQL 或 MySQL）来存储“结果”，然后只查询搜索词。

我的问题是你们认为他们是如何抓取/蜘蛛或实际获取 mp3 文件/内容的？他们必须有一些算法来蜘蛛互联网或使用谷歌的 mp3 索引技巧来查找具有原始 mp3 文件的主机。

感谢任何 cmets 和提示或想法 :)

【问题讨论】：

标签： php mysql indexing mp3 web-crawler

【解决方案1】：

QueryPath 是构建网络蜘蛛的绝佳工具。

我猜他们使用组合方法找到 MP3 - 他们有一个“种子站点”列表（从 Google、Usenet 收集或手动插入），它们用作搜索的起点，然后设置蜘蛛运行他们。

您需要编写一个脚本：

以网页为起点
获取网页数据（使用 cURL）
使用正则表达式提取 (a) 任何链接 (b) 任何指向 mp3 文件的链接
将任何 MP3 链接放入数据库
通过上述方法将其他网页的链接列表加入队列进行处理

您还需要定期重新检查您的 MP3 链接以删除任何不良链接。

【讨论】：

【解决方案2】：

或者，您可以抓取诸如 beemp3.com 之类的 MP3 蜘蛛并提取所有直接下载链接并将它们保存到您的数据库中。你只需要两个文件一、简单的html Dom。二、一个可以提取到您的数据库的链接的应用程序。

检查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php 做了什么

如果有任何矛盾，你会继续问。

【讨论】：