Entrez 电子搜索结果与在线结果不匹配答案

【问题标题】：Entrez E-Search results not matching up with online resultsEntrez 电子搜索结果与在线结果不匹配
【发布时间】：2018-11-13 06:36:15
【问题描述】：

我正在使用以下代码执行 esearch，但我从 IdList 获得的 ID 与在线搜索中的 ID 不匹配。 p>

from Bio import Entrez
Entrez.email = "myEmail@gmail.com"
handle = Entrez.esearch(db = "nucleotide", term = "chordata[orgn] AND 
chromosome", retmax = 10, idtype = "acc")
genome_ids = Entrez.read(handle)['IdList']
print(genome_ids)

当我打印出 id 时，它们与网上的不匹配。有人知道为什么吗？这些是我打印出基因组 ID 时得到的 ID：

['NG_017163.2', 'NM_017553.3', 'NG_059281.1', 'NM_005101.4', 
'MH423692.1', 'MH423691.1', 'MH423690.1', 'MH423689.1', 'MH423688.1', 
'MH423687.1']

这里是在线搜索的链接： https://www.ncbi.nlm.nih.gov/nuccore/?term=chordata%5Borgn%5D+AND+chromosome

还有谁知道我如何从脊索动物门下载所有生物的染色体和线粒体基因组。我想通过 E-utilities 使用 BioPython 来完成。

【问题讨论】：

显示一个指向您的确切在线搜索的链接以及生成的 id，并显示打印的前 10 个genome_ids，哪些 id 是正确的？也许您查询的是错误的数据库？
顺便说一句，下载所有脊索动物基因组将是一个庞大的数据集（所有已测序的动物以及更多），请在尝试之前仔细考虑！
我已将 ID 和搜索链接添加到帖子中。有没有办法下载大约 1000 个脊索动物基因组（对于 1000 个生物体？）

标签： bioinformatics biopython

【解决方案1】：

如何从脊索动物门下载所有生物的染色体和线粒体基因组

转到https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi
在“搜索”框中输入chordata，在下拉列表中选择complete name
为级别输入一个较大的数字（例如30），然后在下拉列表中选择过滤器has genome sequence
选中nucleotide复选框

您现在将查看脊索动物的完整分类树及其子分类。每个taxid 后面的数字是该taxid 的序列数。因此，NCBI 包含 84,366,537 个不同的脊索数据序列。

你可能没有足够的空间下载它们，所以做出选择，点击出租车后面的数字，然后选择Send to > File > FASTA。

【讨论】：