【问题标题】:How to access the public data from Amazon S3如何从 Amazon S3 访问公共数据
【发布时间】:2014-04-01 05:31:56
【问题描述】:

我是 Analytics 和亚马逊的新手。我发现了一些在 AWS S3 上公开的数据集。我下载了 s3fox 收费但无法使用它。下载此数据的其他方法是什么?我不想使用 EC2 实例或 Hadoop。我只是想下载这些文本文件并在 R 中运行。

我想下载以下文件: s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690169105/textData-00112

问候 爸爸

【问题讨论】:

    标签: amazon-web-services amazon-s3


    【解决方案1】:
    【解决方案2】:

    您可以使用imiperalix提到的链接下载并运行以下行以表格形式加载数据。

    textdata = read.table("{path}textData-00112");

    【讨论】:

    • 嗨 Satish,谢谢你的进一步步骤。我试过了,最后只找到了 1 行,即“V1 1 SEQ\006\031org.apache.hadoop.io.Text\031org.apache.hadoop.io.Text\001\001'org.apache.hadoop.io. compress.GzipCodec”。我完全迷失在这里。我将文件转换为 .csv 格式并打开它以找到大约 250000 行损坏数据。我可以在这方面做更多的事情吗?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-24
    • 2014-08-13
    • 2019-04-20
    • 2021-04-27
    相关资源
    最近更新 更多