【问题标题】:Managing a large SPSS (*.sav) file (4.2 GB)管理大型 SPSS (*.sav) 文件 (4.2 GB)
【发布时间】:2018-12-04 17:17:00
【问题描述】:

我收到了另一家公司进行的调查的 SPSS 文件,据称该文件仅包含约 1500 名受访者,但文件大小不知何故膨胀到了 4.2GB。我的直觉是,这样做的原因是该文件来自全球调查,并且已选择的 1500 条记录仅来自美国,因此有一系列空白变量、包含在此文件中的变量的元数据和也可能有多种语言/字母。

我只需要这些数据的一个子集,如果我删除了元数据,我可能会使用它,但我的问题是我无法打开该死的东西来减少变量的数量。我一直在使用可用的工具尝试以下解决方法,但我确信有更好的选择:

  1. 使用 PSPP(免费软件 SPSS)打开文件 - 这会导致 PSPP 停止响应

  2. 使用 R 命令 read.spss(来自外部包)写入 .csv - 这声称该文件具有重复的变量名称并且不会继续进行

  3. 使用 R 命令 spss.system.file 编写 .csv - 当我尝试此操作时,R 在尝试运行此程序时花了很多时间思考,并且已经运行了几个小时而没有明显成功。
  4. 使用 PSPP 文本转换工具 (https://pspp.benpfaff.org/) 创建字典或 .csv 文件 - 文件上传完成后,这两个选项都会崩溃。

我已经回到另一家公司尝试让他们减少文件大小,但是我不确定其他人是否有任何想法来执行以下任一操作:

  • 使用可以将其转换为 .csv 或其他类似精简文件格式的其他程序/转换器打开文件
  • 使用另一个程序至少只读取文件中包含的变量名称,以便我可以向其他公司提供我需要的特定变量

【问题讨论】:

    标签: csv spss pspp


    【解决方案1】:

    来自 PSPP 的以下命令应该可以满足您的需要:

    $ pspp-convert originalFile.sav output.csv
    

    如果没有,请提供终端错误信息。

    【讨论】:

    • 我认为您的建议应该可以工作,但是每当我在这里尝试使用命令行时,我都会遇到“重复”变量名的问题。我终于能够打开该文档-但由于文件大小,一旦打开就无法对其进行操作。没有一个变量名似乎是重复的——尽管其中许多都是很长的名字。 S18013542.sav' near offset 0x6d8c4: Renaming variable with duplicate name B1_LO1QM' to 'VAR101'. Warnings (101) exceed limit (100). Syntax processing will be halted.
    • *.sav 文件是如何生成的?是从pspp保存的吗? spss?手动生成?
    猜你喜欢
    • 1970-01-01
    • 2013-05-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多