⼈类基因组概况:
⼈类基因组由ATCG四种碱基组成,但是CG的含量低于50%,所以CG含量低于AT含量。 ⼀个基因组的dna⼤约3ug。
snp:
平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。
如果按照每1000个碱基存在1个SNP来计算,⼈类30亿个碱基中,⼤约有300万个SNPs。
⼈类基因组的突变频率10的-6次⽅。即:每10的6次⽅个碱基,就会发⽣⼀个突变。
基因组长度:
⼈类基因组有30亿个碱基(3*10的10次⽅)。⼈类基因组的exon的长度⼤约1*10的7次⽅,占基因组的2%~3%。
假如平均⼀个protein的长度为500个amino acid(氨基酸),那么编码⼀个protein需要的碱基数为500*3=1500bp=1.5kb。那么,1个protein占exon的碱基数:1500/(1*10的7次⽅)≈10的4次⽅,即1个protein占exon碱基数的万分之⼀。
基因类型:
Ensemble数据库中有5万多个基因。其中,2万多个蛋⽩编码基因,还有假基因、microRNA、LincRNA等。GeneCode的gtf⽂件中,有⼀列是genetype,它分的类型是:protein coding、LincRNA、假基因。
即:基因可分为两⼤类编码蛋⽩的基因(包括:protein coding gene、pseudogene、LincRNA)、不编码蛋⽩的基因。
基因区域:
UTR:不翻译成蛋⽩。 3`UTR:转录起始->翻译起始(ATG)之间的区域。5`UTR:翻译终⽌->转录终⽌之间的区域。
阅读框:开放阅读框(Open Reading Frame, ORF)从DNA序列中,从起始密码⼦开始,到终⽌密码⼦结束的⼀段具有编码蛋⽩质功能的碱基序列。
intergenic:DNA不转录成RNA的区域。落⼊该区域的突变,不知道功能、不关注、不找hotspot。⼈类基因组98%是intergenetic区域。
introgenic:DNA转录成RNA的区域,包括:upstream,intron,exon,downstream,non-coding RNA,lincRNA。只关注落⼊introgenic区域的突变。即:只关注能转录成RNA的区域内的突变。
基因突变:
1. 突变类型:
non-sense(⽆义突变):某个碱基突变后,导致原本编码氨基酸的密码⼦变成了终⽌密码⼦,使肽链合成提前终⽌。 FrameShiftIndel:在阅读框内发⽣的indel。突变发⽣的位置不是3的倍数,导致碱基序列在翻译成氨基酸的过程中乱套了。 missense:错义突变。导致编码的氨基酸发⽣变化。 VTR_INTRON_ncRNA:exon之外的区域发⽣突变。
synonymous:碱基发⽣改变。但编码的氨基酸不变,不会对形成的蛋⽩有影响。⽐如:CTA与CTG 均编码亮氨酸,若A突变为G则该变异为同义突变。
silent:碱基发⽣改变,⽽编码的氨基酸也发⽣改变,但不影响蛋⽩质的编码。
2. 突变频率(variant allele frequency,VAF):
假如某个snv点的VAF为0.125=12.5%,这表⽰:在覆盖这个点的read数中,有12.5%的read来⾃B allele(即突变的那条allele),由此可以得出:25%的肿瘤细胞携带B allele。参照下图。
等位基因频率(也称为:B allele frequency):10万⼈,9万⼈携带的的是geneA,1万⼈携带的是geneB。则,等位基因频率为:1/10=10%。
3. 突变注释的⼯具:
snpEff。注释snv的⼯具。 4. 突变原因:
G->T:氧化损伤导致 G->A(C->T):脱氨基导致 5. ⾮编码蛋⽩突变的解释:
同义突变,虽然对这个基因编码的蛋⽩没有影响。但是,会影响其他基因的表达。⽐如,APC有4个同义突变,这些突变会影响REEP5(它是⼀个tumor suppressor gene)的RNA表达值。 6.基因的拷贝数变异:
通常call CNV的⼯具会考虑的因素:normalization、纯度、污染度、倍系。
疑问1:肿瘤病⼈的正常组织(如:OEC),或者正常⼈⾎液中的⽩细胞,对这些样本进⾏靶向测序时,为什么有⼤量snp的突变频率会在10%~30%之间呢?正常snp的突变频率应该是50%或100%。
推测原因:(1)PCR扩增的偏好,也可称为抽样误差。⽐如:该snp(A-》G,A突变为G)的突变频率应该是50%,但是,由于扩增的偏好性,导致A allele被⼤量扩增,G allele扩增的少。
那么,假设携带正常A的allele被测了8,携带突变G的 allele被测了2次,则计算得到的G的allele frequency为2/10=20%。
(2)因为是靶向测序,所以有可能是此位点被不同的amplicon覆盖。⽽amplicon在PCR扩增过程中会引起错误。 (3)基因组在此snp位置处存在拷贝数异常的现象。
(4)基因存在多拷贝的情况。⽐如,gene A在基因组中存在多个。 (5)纯度所致。
(6)这些snp是否有组织特异性呢?在不同的组织中,存在这种状况的snp有差异吗?⽐如,某个snp在OEC中突变频率是20%,⽽在WBC中是50%。存在这样的情况吗? 没有验证这种想法。
疑问2:肺癌病⼈的OEC与⽩细胞的靶向测序结果中,存在⼤量不⼀致的snp。因为所有细胞的DNA序列都是⼀致的,为什么会出现这样的情况呢?
后来,我在查阅脑细胞somatic mutation时,看到⼀篇⽂献说:其实各个组织中的基因组是不⼀致的。
疑问3:WGS的测序数据中,也存在很多这样的突变频率在10~30%之间的snv or snp。增加测序深度后,这样的snv占的⽐例反⽽更⾼呢?这是为何呢?
这说明,这样的snv是真实存在的,测序深度越⾼,越能检测到更多这样的snv。
因为是在肿瘤样本,所以,这样的突变可以⽤肿瘤组织的clone原理来解释。即:肿瘤细胞可以被分为不同的群体,有⼀些群体携带这样的snv,⽽其他的群体不存在这样的snv。这⼜是为何呢?因为携带这些snv的细胞群体是在肿瘤形成过程的后期出现的。 但是,这个问题在测序深度很深时,应该会避免。因为⼤数据量时,会避免抽样误差。结果呢?进⾏上万层的测序时,仍然存在这个问题。
重复序列:
LINE:重复序列。⼤脑发育过程中LINE很活跃。LINE通过反转录的⽅式,插到其它序列中。
6.7kb。转录成长的RNA,编码反转录酶,将⾃⼰或其它序列插⼊到DNA中。 tanderm repeat:
repeatMaster⼯具,可发现基因组上的重复序列。
熟悉的基因:
abparts(BCR,B cell receptor):B cell抗原受体。作⽤是识别抗原。编码B cell抗体的基因。B cell在⾻髓中淋巴细胞中重排。 ⼀个B cell携带⼀个抗体。
⼀般的染⾊体重排只发⽣在⼀条染⾊体上,但是,chrom14的abparts,在两条染⾊体上都发⽣了重排。
TCR(Tcell receptor ):T cell抗原受体。作⽤是识别抗原。编码T cell抗体的基因。分两种TCR1和TCR2,外周⾎中主要是TCR2。
RB1:与细胞周期有关的⼀个基因。抑制磷酸化,抑制细胞增殖。 RCBTB2:在胞质中存在。与染⾊质浓缩有关。
因篇幅问题不能全部显示,请点此查看更多更全内容