【发布时间】:2022-01-24 06:47:43
【问题描述】:
有没有什么方法可以读取 AXT 文件而不自动将序列转换为大写?
代码链接为:https://github.com/alexander-nash/kurtosis_conservation/blob/master/get_identical_seq_locations.R
getLengthsOfIdenticalSeqs() 此函数比较两个序列并确定匹配序列的长度。
例如:
ATCGCGAT
TTCGAAAT
输出:
长度为 3 的 TCG
长度为 3 的 AT
但问题在于 readAxt() 函数会自动将小写转换为大写,然后比较错误的序列。
if(species2 != "lepOcu1"){
axts<-lapply(species2, function(x) {
lel<-dir(paste0("Human-mouse/Human Mouse 2009/axtNet/"), pattern=paste0("chrX", ".*.axt"), full.names=T)
lel<-lel[!grepl("Exon", lel)]
lel<-lel[!grepl("broken", lel)]
tfn<-paste0("Human-mouse/Human Mouse 2009/bigZips/hg19/", species1, ".2bit")
if(!file.exists(tfn)) tfn<-paste0("Human-mouse/Human Mouse 2009/bigZips/hg19", species1, "/bigZips/", species1, ".2bit")
qfn<-paste0("Human-mouse/Human Mouse 2009/bigZips/mm10/", species2, ".2bit")
if(!file.exists(qfn)) qfn<-paste0("Human-mouse/Human Mouse 2009/bigZips/mm10", species2, "/bigZips/", species2, ".2bit")
out<-readAxt(lel, tAssemblyFn=NULL, qAssemblyFn=NULL)
})
}
names(axts)<-species2
print((axts))
此代码输出以下序列:
具有 80740 个对齐对的 Axt:
1 chrX 70345 70614 chr8 35873813 35874094 - 6175
GGTACTGAGGTCCCCTGGGTACTGAGATCTCCTCGGTACTGAAGTCTCCTCGGTGCTGAGGTCGCCTCGGTGCTG...GGTACTGAGGTCGCCTAGGTACTGAGACCTTCTAGGTCCTGAGGT--------CTAGGTACTGAGG-CCTTCTCC
GATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTG...GATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCTCTCCCAGGATGCTGAGGTTCCTCTCC
但原来的序列是(存在小写):
0 chrX 70345 70614 chr8 35873813 35874094 - 6175
ggtacTGAGGTCCCCTGGGTACTGAGATCTCCTCGGTACTGAAGTCTCCTCGGTGCTGAGGTCGCCTCGGTGCTGAGACCTCCTAGGTATTGAGGTCGCCTCGGTACTGAGGTTGCCTC----------------------------GGTGCTGAGGT-----CGCCACGGTGCTGAGACCTCCTAGATACTGAGG----TCTCCTAGGCACGGAGATCTCCTATGTACAGAGACCTCGTCGGTACTGAGGTCAGCCTAGGTACTGAGACCTTCTAG-- --CTAGGTACTGAGG-CCTTCTCC
GATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTT-CCTCTCCCGGGATGCTGAGGTTCCTCTCCCGGGATGCTGAGGTTCCTCTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCTCTCCCAG --------------------------------- GATGCTGAGGTTCCCAGGATGCTGAGGTTCCCAGGATGCTGAGGTTCCTCTCCCAGGATGCTGAGGTTCCTCTCC P>
【问题讨论】:
-
请给出一个带有输出和预期输出的简短代码示例。
-
@AndreWildberg 完成。
标签: r bioconductor