每日文献: 2018-01-16

Nature Genetics：水稻泛基因组研究方法解读

原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice
原文地址: https://www.nature.com/articles/s41588-018-0041-z

由于目前课题和自然变异关系比较大，所以解读一下这篇文章在深度测序(约等于100X)组装66个水稻品种后是如何寻找变异，以及如何验证这些变异的质量。

常规的高通量测序比对是利用100bp的短读序列，因此如果参考物种的基因组本身就不包含某些基因，那么这些100bp短读序列要么是没有比对，要么是比对到错误的地方，所以这些高度多态区域就不可避免在后续的分析中丢失了。文章就先对按照如下套路，对水稻物种内多个具有代表性物种的基因组深度测序并组装。

基因组组装流程

并且还通过BAC文库对其中一个物种进行高质量组装，验证方法的可行性

基于BAC文库验证

变异识别

这些组装好的contig通过MUMmer锚定到水稻参考基因组序列上(IRGSP build 4 version). MUMmer能够返回contig和参考基因组的一对一的区块信息(one-to-one blocks), 之后根据该信息，使用EMBOSS的diffseq -wordisze 10寻找变异。这样子就能找到SV（结构变异，大于20bp,小于12kb）。基于联配信息找到66个水稻品种分别的基因型信息，即参考基因组的序列是啥，与之不同的变异是啥。根据RAP-DB的GFF文件（release 2).）预测潜在效应。

这些变异中有些研究比较好，注释信息比较可靠，有些则是位于基于预测的基因编码区中，于是作者仅使用那些比较可靠的变异，利用ClustalW和BLASTN进行单倍型分析(haplotype analyses)。

此外，还用bowtie2和SAMTools pileup将原始数据比对各自的组装序列上得到pileup结果文件。低质量SNP和small indels用varFilter -D200和Mapping qulity >= 30

得到变异信息后，可以先看这些变异位点的次要等位基因(minor allele )的数量和频率的关系，以及在编码区和非编码区的情况。

Whole-genome variants from 66 representative rice genomes

再看看低质量变异的比率

The proportion of sequence variants from the low quality sites in 66 rice genomes

还可以选择已知的非常有意义的基因序列看看多态性

多态性分析