【问题标题】:Advice/Tips on what the best way to spider/crawl/collect audio content from the internet关于从互联网上蜘蛛/抓取/收集音频内容的最佳方式的建议/提示
【发布时间】:2010-12-15 07:07:21
【问题描述】:

我真正想做的是弄清楚 BEEMP3.COM 是如何工作的。

由于网站的速度,我怀疑他们会当场抓取其他网站/资源。 他们可能使用某种数据库(PostgreSQL 或 MySQL)来存储“结果”,然后只查询搜索词。

我的问题是你们认为他们是如何抓取/蜘蛛或实际获取 mp3 文件/内容的? 他们必须有一些算法来蜘蛛互联网或使用谷歌的 mp3 索引技巧来查找具有原始 mp3 文件的主机。

感谢任何 cmets 和提示或想法 :)

【问题讨论】:

    标签: php mysql indexing mp3 web-crawler


    【解决方案1】:

    QueryPath 是构建网络蜘蛛的绝佳工具。

    我猜他们使用组合方法找到 MP3 - 他们有一个“种子站点”列表(从 Google、Usenet 收集或手动插入),它们用作搜索的起点,然后设置蜘蛛运行他们。

    您需要编写一个脚本:

    • 以网页为起点
    • 获取网页数据(使用 cURL)
    • 使用正则表达式提取 (a) 任何链接 (b) 任何指向 mp3 文件的链接
    • 将任何 MP3 链接放入数据库
    • 通过上述方法将其他网页的链接列表加入队列进行处理

    您还需要定期重新检查您的 MP3 链接以删除任何不良链接。

    【讨论】:

      【解决方案2】:

      或者,您可以抓取诸如 beemp3.com 之类的 MP3 蜘蛛并提取所有直接下载链接并将它们保存到您的数据库中。你只需要两个文件 一、简单的html Dom。 二、一个可以提取到您的数据库的链接的应用程序。

      检查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php 做了什么

      如果有任何矛盾,你会继续问。

      【讨论】:

        猜你喜欢
        • 2017-08-30
        • 1970-01-01
        • 1970-01-01
        • 2023-02-16
        • 1970-01-01
        • 2015-01-10
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多