【发布时间】:2018-11-13 06:36:15
【问题描述】:
我正在使用以下代码执行 esearch,但我从 IdList 获得的 ID 与在线搜索中的 ID 不匹配。 p>
from Bio import Entrez
Entrez.email = "myEmail@gmail.com"
handle = Entrez.esearch(db = "nucleotide", term = "chordata[orgn] AND
chromosome", retmax = 10, idtype = "acc")
genome_ids = Entrez.read(handle)['IdList']
print(genome_ids)
当我打印出 id 时,它们与网上的不匹配。有人知道为什么吗?这些是我打印出基因组 ID 时得到的 ID:
['NG_017163.2', 'NM_017553.3', 'NG_059281.1', 'NM_005101.4',
'MH423692.1', 'MH423691.1', 'MH423690.1', 'MH423689.1', 'MH423688.1',
'MH423687.1']
这里是在线搜索的链接: https://www.ncbi.nlm.nih.gov/nuccore/?term=chordata%5Borgn%5D+AND+chromosome
还有谁知道我如何从脊索动物门下载所有生物的染色体和线粒体基因组。我想通过 E-utilities 使用 BioPython 来完成。
【问题讨论】:
-
显示一个指向您的确切在线搜索的链接以及生成的 id,并显示打印的前 10 个
genome_ids,哪些 id 是正确的?也许您查询的是错误的数据库? -
顺便说一句,下载所有脊索动物基因组将是一个庞大的数据集(所有已测序的动物以及更多),请在尝试之前仔细考虑!
-
我已将 ID 和搜索链接添加到帖子中。有没有办法下载大约 1000 个脊索动物基因组(对于 1000 个生物体?)