【发布时间】:2013-04-06 12:13:44
【问题描述】:
我有两个文件:pedigree.ped 和 pedigree.map。 Plink可以使用这两种文件格式。
就我而言,我想将它们与 R 一起使用,并且我认为我必须转换为 R 格式。例如:Plink 中的缺失值与 R 中的缺失值不同。
如何转换这两个文件以在 R 中使用它们?如何将缺失值更改为 NA?
我的数据样本:
ped 文件:
1 1 0 0 1.02 A A G G 0 0
1 2 0 0 0.51 T G C C A A
2 3 1 2 -9 0 0 A G T T
...
第一列是id_family,第二列是id_individual,第三和第四列是id_individual的父亲和母亲,第五列是数量性状(-9:缺失值),其余列是基因型(SNPs等位基因)。除数量性状为-9外,列的缺失值为0。
地图文件:
1 rs1 0 100000
1 rs2 0 100100
1 rs3 0 100200
第一列是 id 染色体(1-22、X、Y 或 0,如果未放置),第二列是 rs# 或 snp 标识符,第三列是遗传距离(摩根),第四列是碱基对位置(bp 单位)
【问题讨论】:
-
一些示例数据会有所帮助...
-
假设您成功将文件读入 R data.frame,您可以检查缺失值并分配 NA。
-
我该怎么做?可以举个例子吗?
-
这里最大的问题是将大量的 ped 文件导入 R - 读取文件需要数小时甚至数天。如果使用 sql lite 作为数据库引擎,文件对于 sqldf 来说太宽了
标签: r bioinformatics