【发布时间】:2020-08-27 10:03:22
【问题描述】:
我想知道是否有人知道如何在 R 中解压缩 TAR 文件以及如何从大量 GZ 文件中推断数据?此外,有谁知道如何在保持数据文件完整性的同时读取大量数据(大约 100 个)(在某些时候,我的计算机无法处理大量数据并开始写下涂鸦)?
作为一个新手程序员,还在学习编程。我的任务是分析和交叉参考在不同细胞结构之间发现的相似基因的疾病特征的数据。我设法访问了 TXT 数据集文件并对其进行了格式化以被另一个称为 GSEA 的程序识别。
1.) 我安装了一个名为“WinZip”的软件,它帮助我将 TAR 文件解压缩为 GZ 文件。 我将这些文件存储到“下载”下新创建的文件夹中
2.) 然后我尝试使用 R 使用以下代码访问文件:
>untar("file.tar", list=TRUE)
And it produced approximately 170 results (it converted TAR -> GZ files)
3.) 当我尝试输入其中一个 GZ 文件时,它生成了超过一千行的单个字母数字字母和我无法理解的数字。
>989 ™šBx
>990 33BŸ™šC:LÍC\005€
>991 LÍB¬
>992 B«™šBꙚB™™šB¯
>993 B¡
>994 BŸ
>995 C\003
>996 BŽ™šBð™šB¦
>997 B(
>998 LÍAòffBó
>999 LÍBñ™šBó
>1000 €
> [ reached 'max' / getOption("max.print") -- omitted 64340 rows ]
Warning messages:
>1: In read.table("GSM2458563_Control_1_0.CEL.gz") :
line 1 appears to contain embedded nulls
>2: In read.table("GSM2458563_Control_1_0.CEL.gz") :
line 2 appears to contain embedded nulls
>3: In read.table("GSM2458563_Control_1_0.CEL.gz") :
line 3 appears to contain embedded nulls
>4: In read.table("GSM2458563_Control_1_0.CEL.gz") :
line 4 appears to contain embedded nulls
>5: In read.table("GSM2458563_Control_1_0.CEL.gz") :
line 5 appears to contain embedded nulls
>6: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
embedded nul(s) found in input
我想要做的是同时访问所有这些文件,而不会使计算机上的信息过载,并保持数据的完整性。然后,我想在类似于某种数据表的位置正确访问信息(理想情况下,我想知道从 TAR 到 TXT 文件的转换是否可以让 GSEA 读取和识别此类数据)。
有谁知道任何与window兼容的程序可以正确解压缩和读取此类文件或任何可以帮助我生成或转换此类数据文件的R命令?
【问题讨论】:
标签: python r windows tar data-conversion