【发布时间】:2012-12-07 23:08:50
【问题描述】:
我有一些来自人口普查的微数据文件存储为 .txt 并以 ASCII 编码。
当我在文本编辑器中打开它们时,我得到如下信息:
1100015110001500100100003624008705865085282310200600101011022022 14 444231等
由于我对 ASCII 数据的制表没有经验,我想知道是否有任何方法可以使用 R 完成此操作和/或我需要什么类型的补充软件。
实际上,起初我想“正常”地查看我的数据,也就是说,尽可能将其视为表格(文件大小在 40mb 和 500mb 之间变化)。然后我想做一些简单的计算,稍后将结果存储为 csv。在其他情况下使用它。
谁能给我一些建议?
【问题讨论】:
-
您提供的上下文不足。一般来说,R 能够很好地处理这样的文本数据,并且 ASCII 是受支持的编码。您可以为
read.table等函数指定fileEncoding,但如果您的数据只是数字,则首先不需要。 -
将我们指向您正在查看的数据文件! :)
-
主要问题是,数据以 ASCII 码出现。我不知道如何将其转换为字符或如何在 R 中以这种形式使用它。这是数据ftp.ibge.gov.br/Censos/Censo_Demografico_2010/… 的示例
-
@Joschi 您从哪里获得此链接的页面?哪里有 SAS 导入说明?
-
如果您的意思是您的源文件应该包含实际数据的 2 位或 3 位 ASCII 代码,那么您必须找出格式(例如分隔符)是源文件。 R 和任何其他语言都不能自动为您做到这一点。
标签: r ascii file-handling