【问题标题】:Download large data for Hadoop [closed]为 Hadoop 下载大数据 [关闭]
【发布时间】:2012-06-06 07:37:37
【问题描述】:

我需要一个大数据(超过 10GB)来运行 Hadoop 演示。谁知道哪里可以下载。请告诉我。

【问题讨论】:

    标签: hadoop download


    【解决方案1】:

    生成数据可能比下载和放置数据要快。这样做的好处是让您可以控制问题领域,并让您的演示对观看的人有意义。

    【讨论】:

    • 是的,但开发真正有趣的算法来分析数据并没有兴趣
    • 结合某种类型的遗传算法或其他东西时,这是一个好主意——然后您可以分析数据以寻找意义。
    【解决方案2】:

    我建议你从以下网站下载百万首歌曲数据集:

    http://labrosa.ee.columbia.edu/millionsong/

    Millions Songs Dataset 的最佳之处在于,您可以将 1GB(大约 10000 首歌曲)、10GB、50GB 或大约 300GB 的数据集下载到您的 Hadoop 集群并进行任何您想要的测试。我喜欢使用它,并且使用这个数据集学到了很多东西。

    首先,您可以下载以 A-Z 中任意一个字母开头的数据集,范围从 1GB 到 20GB。您也可以使用 Infochimp 网站:

    http://www.infochimps.com/collections/million-songs

    在我的以下一篇博客中,我展示了如何下载 1GB 数据集并运行 Pig 脚本:

    http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

    【讨论】:

    • 很高兴回答您如何获得 tsv.m 文件的问题。许多人要求这个并坚持遵循指南。谢谢你写它!
    【解决方案3】:

    亚马逊上有可用的公共数据集:
    http://aws.amazon.com/publicdatasets/
    我建议考虑在那里运行演示集群 - 从而节省下载。
    Common Crawl 也有很好的 crowned web 数据集,它也可以在 amazon s3 上找到。 http://commoncrawl.org/

    【讨论】:

      【解决方案4】:

      一篇您可能感兴趣的文章,“Using Hadoop to analyze the full Wikipedia dump files using WikiHadoop”。

      如果您关注维基百科页面查看统计,那么this 可能会有所帮助。您可以下载从 2007 年到当前日期的 pagecount 文件。只是为了了解文件的大小,一天 1.9 GB我在这里选择了 2012-05-01)分布在 24 个文件中。

      目前,31 个国家/地区拥有以各种格式提供公共数据的网站,http://www.data.gov/opendatasites。此外,世界银行在http://data.worldbank.org/data-catalog

      上提供数据

      【讨论】:

        【解决方案5】:

        关于“2012 年互联网人口普查”,通过对整个互联网进行分布式扫描收集的数据:

        公告:http://seclists.org/fulldisclosure/2013/Mar/166

        数据:http://internetcensus2012.bitbucket.org/

        整个数据为 7TB,(显然)只能通过 torrent 获得。

        【讨论】:

          【解决方案6】:

          Tom White 在他的书中提到了一个示例天气数据集(Hadoop:权威指南)。

          http://hadoopbook.com/code.html

          数据可用超过 100 年。

          我在linux中使用wget来拉取数据。 2007 年本身的数据大小为 27 GB。

          它以FTP 链接的形式托管。因此,您可以使用任何 FTP 实用程序进行下载。

          ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

          详情请查看我的博客:

          http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

          【讨论】:

          • 可以链接到您的博客,但如果可能,最好包含实际说明。这样它就可以被搜索并且更容易阅读,然后它是跟随远离网站的链接。这是一个很好的资源,感谢添加它。
          • @Joshua Wilson:我想不要重复相同的信息。这是唯一的原因,否则我很想补充。谢谢你的建议,我现在更新了。
          【解决方案7】:

          如果您对国家指标感兴趣,我发现的最佳来源是 worldbank.org。他们提供的数据可以导出为 CSV,这使得在 Hadoop 中使用起来非常容易。如果您使用的是 .NET,我写了一篇博文 http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html,您可以在其中看到数据的外观,如果您从 gidhub https://github.com/ryan-popa/Hadoop-Analysis 下载代码,您已经有了字符串解析方法。

          【讨论】:

            猜你喜欢
            • 2016-08-04
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            相关资源
            最近更新 更多