您的当前位置:首页正文

人类基因组概况--整理

2023-06-09 来源:客趣旅游网
⼈类基因组概况--整理

⼈类基因组概况:        

    ⼈类基因组由ATCG四种碱基组成,但是CG的含量低于50%,所以CG含量低于AT含量。        ⼀个基因组的dna⼤约3ug。

  snp:

    平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。

    如果按照每1000个碱基存在1个SNP来计算,⼈类30亿个碱基中,⼤约有300万个SNPs。

    ⼈类基因组的突变频率10的-6次⽅。即:每10的6次⽅个碱基,就会发⽣⼀个突变。

  基因组长度:

    ⼈类基因组有30亿个碱基(3*10的10次⽅)。⼈类基因组的exon的长度⼤约1*10的7次⽅,占基因组的2%~3%。

    假如平均⼀个protein的长度为500个amino acid(氨基酸),那么编码⼀个protein需要的碱基数为500*3=1500bp=1.5kb。那么,1个protein占exon的碱基数:1500/(1*10的7次⽅)≈10的4次⽅,即1个protein占exon碱基数的万分之⼀。

  基因类型:

    Ensemble数据库中有5万多个基因。其中,2万多个蛋⽩编码基因,还有假基因、microRNA、LincRNA等。GeneCode的gtf⽂件中,有⼀列是genetype,它分的类型是:protein coding、LincRNA、假基因。

    即:基因可分为两⼤类编码蛋⽩的基因(包括:protein coding gene、pseudogene、LincRNA)、不编码蛋⽩的基因。

  基因区域:

    UTR:不翻译成蛋⽩。 3`UTR:转录起始->翻译起始(ATG)之间的区域。5`UTR:翻译终⽌->转录终⽌之间的区域。

    阅读框:开放阅读框(Open Reading Frame, ORF)从DNA序列中,从起始密码⼦开始,到终⽌密码⼦结束的⼀段具有编码蛋⽩质功能的碱基序列。

    intergenic:DNA不转录成RNA的区域。落⼊该区域的突变,不知道功能、不关注、不找hotspot。⼈类基因组98%是intergenetic区域。

    introgenic:DNA转录成RNA的区域,包括:upstream,intron,exon,downstream,non-coding RNA,lincRNA。只关注落⼊introgenic区域的突变。即:只关注能转录成RNA的区域内的突变。   

  基因突变:

    1. 突变类型:

    non-sense(⽆义突变):某个碱基突变后,导致原本编码氨基酸的密码⼦变成了终⽌密码⼦,使肽链合成提前终⽌。    FrameShiftIndel:在阅读框内发⽣的indel。突变发⽣的位置不是3的倍数,导致碱基序列在翻译成氨基酸的过程中乱套了。    missense:错义突变。导致编码的氨基酸发⽣变化。    VTR_INTRON_ncRNA:exon之外的区域发⽣突变。

    synonymous:碱基发⽣改变。但编码的氨基酸不变,不会对形成的蛋⽩有影响。⽐如:CTA与CTG 均编码亮氨酸,若A突变为G则该变异为同义突变。

    silent:碱基发⽣改变,⽽编码的氨基酸也发⽣改变,但不影响蛋⽩质的编码。

    2. 突变频率(variant allele frequency,VAF):

      假如某个snv点的VAF为0.125=12.5%,这表⽰:在覆盖这个点的read数中,有12.5%的read来⾃B allele(即突变的那条allele),由此可以得出:25%的肿瘤细胞携带B allele。参照下图。

      等位基因频率(也称为:B allele frequency):10万⼈,9万⼈携带的的是geneA,1万⼈携带的是geneB。则,等位基因频率为:1/10=10%。

    3. 突变注释的⼯具:

      snpEff。注释snv的⼯具。     4. 突变原因:

      G->T:氧化损伤导致  G->A(C->T):脱氨基导致    5. ⾮编码蛋⽩突变的解释:

      同义突变,虽然对这个基因编码的蛋⽩没有影响。但是,会影响其他基因的表达。⽐如,APC有4个同义突变,这些突变会影响REEP5(它是⼀个tumor suppressor gene)的RNA表达值。    6.基因的拷贝数变异:     

      通常call CNV的⼯具会考虑的因素:normalization、纯度、污染度、倍系。

  疑问1:肿瘤病⼈的正常组织(如:OEC),或者正常⼈⾎液中的⽩细胞,对这些样本进⾏靶向测序时,为什么有⼤量snp的突变频率会在10%~30%之间呢?正常snp的突变频率应该是50%或100%。

    推测原因:(1)PCR扩增的偏好,也可称为抽样误差。⽐如:该snp(A-》G,A突变为G)的突变频率应该是50%,但是,由于扩增的偏好性,导致A allele被⼤量扩增,G allele扩增的少。

           那么,假设携带正常A的allele被测了8,携带突变G的  allele被测了2次,则计算得到的G的allele frequency为2/10=20%。

         (2)因为是靶向测序,所以有可能是此位点被不同的amplicon覆盖。⽽amplicon在PCR扩增过程中会引起错误。         (3)基因组在此snp位置处存在拷贝数异常的现象。

         (4)基因存在多拷贝的情况。⽐如,gene A在基因组中存在多个。          (5)纯度所致。

         (6)这些snp是否有组织特异性呢?在不同的组织中,存在这种状况的snp有差异吗?⽐如,某个snp在OEC中突变频率是20%,⽽在WBC中是50%。存在这样的情况吗?              没有验证这种想法。

  疑问2:肺癌病⼈的OEC与⽩细胞的靶向测序结果中,存在⼤量不⼀致的snp。因为所有细胞的DNA序列都是⼀致的,为什么会出现这样的情况呢?

    后来,我在查阅脑细胞somatic mutation时,看到⼀篇⽂献说:其实各个组织中的基因组是不⼀致的。

  疑问3:WGS的测序数据中,也存在很多这样的突变频率在10~30%之间的snv or snp。增加测序深度后,这样的snv占的⽐例反⽽更⾼呢?这是为何呢?

      这说明,这样的snv是真实存在的,测序深度越⾼,越能检测到更多这样的snv。

      因为是在肿瘤样本,所以,这样的突变可以⽤肿瘤组织的clone原理来解释。即:肿瘤细胞可以被分为不同的群体,有⼀些群体携带这样的snv,⽽其他的群体不存在这样的snv。这⼜是为何呢?因为携带这些snv的细胞群体是在肿瘤形成过程的后期出现的。   但是,这个问题在测序深度很深时,应该会避免。因为⼤数据量时,会避免抽样误差。结果呢?进⾏上万层的测序时,仍然存在这个问题。

  重复序列:

  LINE:重复序列。⼤脑发育过程中LINE很活跃。LINE通过反转录的⽅式,插到其它序列中。

    6.7kb。转录成长的RNA,编码反转录酶,将⾃⼰或其它序列插⼊到DNA中。  tanderm repeat:

    repeatMaster⼯具,可发现基因组上的重复序列。

  熟悉的基因:

    abparts(BCR,B cell receptor):B cell抗原受体。作⽤是识别抗原。编码B cell抗体的基因。B cell在⾻髓中淋巴细胞中重排。      ⼀个B cell携带⼀个抗体。

      ⼀般的染⾊体重排只发⽣在⼀条染⾊体上,但是,chrom14的abparts,在两条染⾊体上都发⽣了重排。

  TCR(Tcell receptor ):T cell抗原受体。作⽤是识别抗原。编码T cell抗体的基因。分两种TCR1和TCR2,外周⾎中主要是TCR2。

  RB1:与细胞周期有关的⼀个基因。抑制磷酸化,抑制细胞增殖。  RCBTB2:在胞质中存在。与染⾊质浓缩有关。

因篇幅问题不能全部显示,请点此查看更多更全内容