【发布时间】:2018-12-04 17:17:00
【问题描述】:
我收到了另一家公司进行的调查的 SPSS 文件,据称该文件仅包含约 1500 名受访者,但文件大小不知何故膨胀到了 4.2GB。我的直觉是,这样做的原因是该文件来自全球调查,并且已选择的 1500 条记录仅来自美国,因此有一系列空白变量、包含在此文件中的变量的元数据和也可能有多种语言/字母。
我只需要这些数据的一个子集,如果我删除了元数据,我可能会使用它,但我的问题是我无法打开该死的东西来减少变量的数量。我一直在使用可用的工具尝试以下解决方法,但我确信有更好的选择:
使用 PSPP(免费软件 SPSS)打开文件 - 这会导致 PSPP 停止响应
使用 R 命令 read.spss(来自外部包)写入 .csv - 这声称该文件具有重复的变量名称并且不会继续进行
- 使用 R 命令 spss.system.file 编写 .csv - 当我尝试此操作时,R 在尝试运行此程序时花了很多时间思考,并且已经运行了几个小时而没有明显成功。
- 使用 PSPP 文本转换工具 (https://pspp.benpfaff.org/) 创建字典或 .csv 文件 - 文件上传完成后,这两个选项都会崩溃。
我已经回到另一家公司尝试让他们减少文件大小,但是我不确定其他人是否有任何想法来执行以下任一操作:
- 使用可以将其转换为 .csv 或其他类似精简文件格式的其他程序/转换器打开文件
- 使用另一个程序至少只读取文件中包含的变量名称,以便我可以向其他公司提供我需要的特定变量
【问题讨论】: