一 序列比对
什么是序列比对?alignment,也叫对位排列,联配,对齐等
将两条或多条(核苷酸或氨基酸)序列排列在一起,通过一定的算法找出序列之间最大相似性匹配的过程。
二 序列相似性
序列一致度(identity)与相似度(similarity)
一致度:如果两个序列(蛋白质或核酸)长度相同,那么它们的一致度定义为它们对应位置上相同的残基(一个字母,氨基酸或碱基 )的数目占总长度的百分数
相似度:如果两个序列(蛋白质或核酸)长度相同,那么它们的相似度定义为它们对应位置上相似的残基与相同的残基的数目和占长度的百分数
哪个残基与哪个残基算作相似?
答:残基两两相似的量化关系被替换记分矩阵所定义。
替换记分矩阵(Substitution Matrix):反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。分为DNA替换记分矩阵,和蛋白质替换记分矩阵
3种常见的DNA序列的替换记分矩阵
等价矩阵:最简单的替换记分矩阵,其中相同的核苷酸之间的匹配得分为1 ,不同的核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。
转换-颠换矩阵(transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤G),它们有两个环。如果DNA碱基的替换保持环数不变,则成为转换,如A—>G,C–>T;如果环数发生变化,则称为颠换,A–>C,T–>G等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,二颠换的得分为-5
BLAST矩阵:经大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好,这个矩阵广泛的被DNA序列比较所采用
蛋白质序列的替换记分矩阵
蛋白质最常用的两种矩阵是 PAM 矩阵和 BLOSUM 矩阵
PAM 矩阵
PAM 矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界容易接受这种替换,那么这一对氨基酸替换的得分就应该高。
PAM 矩阵的选择
基础的 PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值,由统计方法得到。PAM-1 自乘 n 次,可以得到 PAM-n ,表示发生了更多次突变。我们需要根据要比较的序列之间的亲缘关系远近,来选择适合的 PAM 矩阵。如果序列亲缘关系远,也就是说序列间会有很多突变,那就选 PAM 后面跟一个大数字的矩阵。如果亲缘关系近,也就是突变比较少,序列间大多数地方都是一样的,那就选 PAM 后面跟一个小数字的矩阵。
PAM250 矩阵。对角线上的数值为匹配氨基酸的得分。其他位置上≥0 的得分代
表对应的一对氨基酸为相似氨基酸,<0 的是不相似的氨基酸
BLOSUM 矩阵
BLOSUM 矩阵都是通过对大量符合特定要求的序列计算而来的。这点和 PAM 矩阵不同的。PAM-1 矩阵是基于相似度大于85%的序列计算产生的,也就是通过关系较近的序列计算出来的。那些进化距离较远的矩阵,如 PAM-250,是通过 PAM-1 自乘得到的。也就是说,BLOSUM 矩阵的相似性是根据真实数据产生的,而 PAM 矩阵是通过矩阵自乘外推而来的。和 PAM 矩阵的另一个不同之处是BLOSUM 矩阵的编号。这些编号,比如 BLOSUM80 中的 80,代表这个矩阵是由一致度≥80%
的序列计算而来的。同理,BLOSUM62 是指这个矩阵是由一致度≥62%的序列计算而来的。因此,BLOSUM 后面跟一个小数字的矩阵适合用于比较相似度低的序列,也就是亲缘关系远的序列;而 BLOSUM 后面跟一个大数字的矩阵适合比较相似度高的序列,也就是亲缘关系近的序列。
总结
亲缘关系较近的序列之间的比较,用 PAM 数小的矩阵或BLOSUM 数大的矩阵;而亲缘关系较远的序列之间的比较,用 PAM 数大的矩阵或 BLOSUM数小的矩阵
如果关于要比较的序列你不知道亲缘关系远近,那么就闭着眼睛用
BLOSUM62 吧!至此,只记住 BLOSUM62 这个名字,也可以走遍天下全不怕!
除了 PAM 和 BLOSUM 矩阵,还有两个蛋白质的替换记分矩阵。一个是遗传密码矩阵,它是通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到的。矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为 1;如果需要 2 个碱基的改变,则替换代价为 2;再比如从蛋氨酸(Met)到酪氨酸(Tyr)三个密码子都要变,则代价为 3。遗传密码矩阵常用于进化距离的计算,它的优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对,尤其是相似程度很低的蛋白质序列比对中,很少被使用
另一个疏水矩阵,它是根据氨基酸残基替换前后疏水性的变化而得到的矩阵。若一次氨基酸替换导致疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。疏水矩阵物理意义明确,有一定的理化性质依据,适用于偏重蛋白质功能方面的序列比对。在这个矩阵里,氨基酸按照亲疏水性排列。前边是亲水的,后面是疏水的。
三 相似性与同源性
问题:相似性等于同源性吗?
相似性(similarity)
概念:是指两个序列之间的相关程度。比如说,A序列和B序列的相似性是85%,这是一个量化的关系,并不具有生物学意义。
同源性(homology)
概念:是指两个序列具有共同的祖先,属于质的判断。就是说A和B的关系上,只有是同源序列,或者是非同源序列两种关系。而说A和B的同源性为85%则是不科学的。
相似性与同源性的关系
序列相似不一定同源(相似可能是偶然的)
序列不相似不一定不同源(高级结构相似)
总结:
一般来说序列间的相似性越高的话,它们是同源序列的可能性就越大,所以经常可以通过序列的相似来推断序列是否同源(统计学推断)。
四 比较两个序列的方法
打点法
最简单的比较两个序列的方法,理论上用纸笔完成
用这种方法发现串联重复序列(tandem repeat)
seq1:FASABCABCABCTHE
短串联重复序列(short tandem repeat ,STR)也叫做微卫星DNA,是一类广泛存在于真核生物基因组中的DNA串联重复序列。它由2-6bp的核心序列组成,重复次数通常在15-30次。STR具有高度多态性,即存在重复次数的个体差异,而且这种差异在基因遗传过程中一般遵循孟德尔显性遗传规律,所以他被广泛用于法医学个体识别,亲子鉴定等领域。
我们只要数数在半个矩阵中包括主对角线在内的所有等距的平行线的个数,就可以知道重复的次数,而且最短的平行线对应的序列就是重复单元
最常用的 Dotlet 软件:http://myhits.isb-sib.ch/cgi-bin/dotlet
序列比对法
较两条序列可以通过打点法,但是用打点法只能让你大致了解两条序列是否相似,无法定量的描述。如果想要精确地知道两条序列到底有多相似,就需要使用序列比对法
根据比对序列的个数可以把序列比对分为双序列比对和多序列比对。顾名思义,双序列比对就是比 2 条,而多序列比对是比 2 条以上。此外根据序列比对的算法不同,双序列比对又分为全局比对和局部比对
全局比对就是全长比较,一个字符都不能落下。而局部比对是比较对得最好的局部,对得不好的部分会被忽略不计。
氨基酸背景知识
| 氨基酸分类 | 名称 | 缩写 |
|---|---|---|
| 非极性疏水性氨基酸 | 甘氨酸 | Gly(G) |
| 非极性疏水性氨基酸 | 丙氨酸 | Ala (A) |
| 非极性疏水性氨基酸 | 缬氨酸 | Val(V) |
| 非极性疏水性氨基酸 | 亮氨酸 | Leu(L) |
| 非极性疏水性氨基酸 | 异亮氨酸 | Ile(I) |
| 非极性疏水性氨基酸(芳香族氨基酸 F,W,Y) | 苯丙氨酸 | Phe(F) |
| 极性氨基酸(芳香族氨基酸 F,W,Y) | 色氨酸 | Trp(W) |
| 极性氨基酸(芳香族氨基酸 F,W,Y) | 酪氨酸 | Tyr(Y) |
| 极性氨基酸 | 丝氨酸 | Ser(S) |
| 极性氨基酸 | 半胱氨酸 | Cys(C) |
| 极性氨基酸 | 甲硫氨酸 | Met(M) |
| 极性氨基酸 | 天冬酰胺 | Gln(Q) |
| 极性氨基酸 | 苏氨酸 | Thr(T) |
| 酸性氨基酸 | 天冬氨酸 | Asp(D) |
| 酸性氨基酸 | 谷氨酸 | Glu(E) |
| 碱性氨基酸 | 精氨酸 | Arg(R) |
| 碱性氨基酸 | 组氨酸 | His(H) |
| 碱性氨基酸 | 赖氨酸 | Lys (K) |
人体必需氨基酸(人体不能合成)甲硫氨酸,缬氨酸,异亮氨酸,苯丙氨酸,亮氨酸,色氨酸,苏氨酸 ‘甲携一本亮色书’
半必需氨基酸 :(合成速度远不适应机体的需要)
精氨酸
还有一种是组氨酸 ,婴儿不能合成。
非必需氨基酸11种