2007--2008学年第 1 学期考试试卷
考试科目: 生物信息学 得分:__________ 学生所在系:___________ 姓名:__________ 学号:___________
一、单项选择题(每题3分,共30分)
1. 下面哪个数据库不属于核酸的三大数据库之一? ( )
A. GenBank B. EBI C. UniProt D. DDBJ
2. 下面哪种算法为双序列比对全局优化算法? ( )
A. Smith-Waterman算法 B. Gibbs Sampler
C. Hidden Markov Model算法 D. Needleman-Wunsch算法
3. 下面哪种工具为多序列比对工具? ( )
A. MegaBlast B. MEGA 4.0 C. GPS D. POA
4. 双序列比对中,全局与局部的优化算法,其核心思想是 ( )
A. 利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛; B. 根据已知数据,构建PSSM矩阵,再计算Log-odd ratio; C. 采用动态规划算法,计算最优路径,并以此得到比对结果; D. 采用邻接法构建进化树,在进化树的指导下进行双序列比对。
5. 下面何种描述适合Baum-Welch算法? ( ) A. 双序列比对的局部优化算法;B. Motif发现的方法之一
C. 对已知的训练数据,采用Viterbi算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型;
D. 对已知的训练数据,采用Smith-Waterman算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型;
6. 实验学家在大肠杆菌中发现某种基因A,具有重要的转录调控功能,通过Reciprocal Best Hits的方法,实验学家用BLAST发现在人中基因B为基因A的高度相似基因。那么,人中基因A与基因B的关系为 ( ) A.旁系同源物 B. 趋同进化 C. 直系同源物 D. 异同源物
—
7. 下面不属于多序列比对的算法有 ( ) A. 最大简约法 B. 渐进方法 C. 迭代方法 D. 部分有向图法
8. 下面基于氨基酸的替代模型并进行距离修整的模型有 ( ) A. Jukes-Cantor法 B. Kimura两参数法 C. 泊松校正 D. Nei-Gojobori法
9. 下面不属于构建进化树的方法有 ( ) A. 最大似然性法 B. 最大简约法 C.距离法 D. 点阵法
10. 已知密码子CCT, CCC, CCA, CCG都编码Pro(脯氨酸),并且仅该四个密码子
都编码Pro。对于密码子CCC,其潜在的同义位点数目s与非同义位点数目n为
( )
A. s=1/3, n=8/3 B. s=1, n=2 C. s=1/4, n=11/4 D. s=1, n=8/3
二、判断题(每题2分,共20分)
1. PAM250矩阵的构建,其基本假设为当序列变化发生期望上的250%的变化时,
氨基酸之间替代的关系,因此,Dayhoff等人选择序列相似性极低的序列,以此构建了通用的PAM250矩阵 ( )
2. 我们通常使用UniProt数据库来查找基因的DNA序列,并得到序列的FASTA格
式 ( )
3. BLAST采用了一种称为“k-tup”的算法,搜索两条序列的对角线两边有限的空
间,因此大大节省了计算时间 ( ) 4. MUSCLE是目前被广泛应用的多序列比对工具,其优越性为采用部分有向图的算
法,从而使得运算的时间复杂度大为降低 ( )
5. Ka/Ks为表征编码区DNA序列是否受到选择压力的主要手段,对于某对基因A
和B,我们通过计算发现Ka/Ks=3.6, 并且通过Fisher’s Exact Text检验后,为统计显著,因此我们可以推测A和B在分化之后受到达尔文的阳性进化选择的压力 ( )
6. 隐马尔科夫算法中的“隐”,指的是状态之间的转移概率已知,而状态内的发
散概率未知,因此,隐马科夫并不表示所有的概率未知。 ( )
7. 蛋白质上的模体/motif,一般指长度为几个到几十个氨基酸,并且不具有独立
的三级结构的氨基酸片段。例如SUMO化位点的motif,一般可表示为:ψ-K-X-E. ( )
欢迎下载 2
—
8. 估算鸟枪法的覆盖率,使用超几何分布的方法能够相当简便的结算出结果。 ( )
9. DNA突变的模式有四种:替代、插入、缺失和倒位。而DNA替代又分为转换和
颠换两种。 ( )
10. 中性进化是由Kimura最早提出,认为绝大多数的突变不好也不坏,并不决定
物种的分化。受达尔文进化所调控的基因约为~1%,这些基因数量虽然很少,却对物种的分化起到了决定性的作用。 ( )
三、综合题(每题10分,共50分)
1. 表观遗传学的研究内容主要包括DNA的甲基化,组蛋白的乙酰化、甲基化及其
它修饰,染色体重塑以及SiRNA与MiRNA调控四个方面。其中DNA的甲基化发生在基因组的特定位置,通常是-CG-序列中的C上,C被化学修饰,引入一个甲基,并很快突变为T。编码区DNA上游启动子区域的DNA甲基化水平的高低,对基因表达量的高低有着重要的影响,一般低甲基化对应基因的高表达,高甲基化则对应基因的低表达。实验学家通过实验鉴定了30条平均长度为1000bp的DNA序列,总共鉴定了60个甲基化位点。生物信息学家基于这些实验数据,构建了预测工具,对于新的两条序列M和N,长度分别为2000bp和1500bp,并预测A和B上分别有3个和9个位点。那么,对于预测出来的位点,若全部
e()x是随机产生的概率为多少?已知泊松分布的公式为:f(x)
x!
2. 对于两条蛋白质序列: AQPPKKE和LEPKRD,请分别用(1) Needleman-Wunsch
算法;(2) Smith-Waterman算法对两条序列作比对;对于Gap的罚分为8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分,对于Smith-Waterman算法,结果表示为单一的比对结果。打分矩阵采用BLOSUM62矩阵,部分矩阵如下:
A R D Q E L K P
A 4 -1 -2 -1 -1 -1 -1 -1
R -1 5 -2 1 0 -2 2 -2
D -2 -2 6 0 2 -4 -1 -1
Q -1 1 0 5 2 -2 1 -1
E -1 0 2 2 5 -3 1 -1
L -1 -2 -4 -2 -3 4 -2 -3
K -1 2 -1 1 1 -2 5 -1
P -1 -2 -1 -1 -1 -3 -1 7
欢迎下载 3
—
3. 请用图示法并辅以必要的文字,描述Gibbs 采样抽取序列motif的过程。这里,假设有n条序列,长度k,待抽取的motif长度为m.
4. 给定一组DNA序列如下:
CGACCTA CGACGAT CGTCGAA TCTCGAG
(1)根据上述DNA序列,请写出一种PSSM矩阵;
(2)给定一条新的序列CGTCGAG,计算log-odd ratio,该例中,四种碱基的背景值都为0.25;
(3) 请计算模体中,第三位和第五位所包含的信息量。
5. 直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别?请用图示法并辅以必要文字进行描述。
中 国 科 学 技 术 大 学
欢迎下载
4
—
2008--2009学年第 1 学期考试试卷
考试科目: 生物信息学 得分:__________ 学生所在系:___________ 姓名:__________ 学号:___________
一、单项选择题(每题3分,共30分)
1. 下面哪种方法不是基因共表达相关性的分析方法? ( )
A. Pearson correlation coefficient B. Kendall's tau
C. T-Test D. Euclidean distance
2. 针对DNA序列的同义与非同义的核苷酸替代,若Ka/Ks=1.2,则可能发生了何种进化过程? ( )
A. 阳性进化 B. 达尔文进化 C. 阴性进化 D. 中性进化
3. 下面哪种工具不是分子进化树构建工具? ( )
A. T-Coffee B. MEGA 4.0 C. PAML D. PHYLIP
4. 隐马尔科夫算法中的Baum-Welch算法,其核心思想是 ( )
E. 采用邻接法构建进化树,在进化树的指导下进行双序列比对;
F. 利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛; G. 根据已知数据,构建PSSM矩阵,再计算Log-odd ratio; H. 采用动态规划算法,计算最优路径,并以此得到比对结果。
5. 不属于DNA突变的模式有? ( )
A. 倒位; B. 颠换; C. 插入; D. 替代。
6. 利用点阵法不能够做到或发现 ( )
A.反向回文序列 B. 自身比对 C. 重复序列 D. 序列模体识别
欢迎下载
5
—
7. 下面哪个数据库是蛋白质数据库 ( )
A. RefSeq B. EBI C. DDBJ D. GenBank
8. 近年,我校学者与复旦大学研究者合作,在芽殖酵母发现了泛素家族的一个分子化石Urm1,稍后有研究者利用BLAST发现了人类的Urm1,那么人类的泛素蛋白质与人类Urm1的关系是 ( )
A. 直系同源物 B. 趋同进化 C. 旁系同源物 D. 异同源物
9. 下面不属于双序列比对的方法有 ( )
A. Smith-Waterman算法 B. 距离法 C. Needleman-Wunsch算法 D. 点阵法
10. 已知密码子ATT, ATC, 和ATA编码Ile (异亮氨酸),而ATG编码Met(甲硫氨酸)。则对于密码子ATC,其潜在的同义位点数目s与非同义位点数目n为
( )
A. s=2/3, n=7/3 B. s=1, n=2 C. s=1/4, n=11/4 D. s=1/3, n=8/3
二、填空题(每空2分,共20分)
1. 使用多序列工具比对两条序列,发现71%的区域相同,若这两条序列为蛋白质
序列,则这两条序列的泊松距离为( );若两条序列为核酸序列,则Jukes-Cantor距离为( )。
2. 给定一组DNA序列如下(碱基的背景值为0.25):
CTACTAGC CGACATGG CTACATGG CTTGAAGC
给定一条新的序列CGACAAGC,其log-odd ratio (以2为底计算数值) 为( ); 该组DNA序列,其第二位的信息量为( ),第八位的信息量为( )。
3. 实验学家从1000个4bp的DNA序列中鉴定了200个X-box序列,其中第一
位T的出现概率为0.97,第二位A出现的概率为0.91,第三位C出现的概率为0.85,第四位A出现的概率为0.80,C出现的概率为0.14。其他位点出现的概率各自相同。则序列TACA可能是X-box的概率为( ),序列TACC可能是X-box的概率为( )。
4. 蛋白质磷酸化位点的预测是一个重要的生物信息学问题。实验学家以405个
磷酸化蛋白质为训练数据,包含800个实验验证的磷酸化位点和16000个非
欢迎下载 6
—
磷酸化位点,开发了P工具。利用P工具做Self-consistency检验,总共预测出1470个阳性结果,则该工具的灵敏度Sn为( ),特异性Sp为( ),准确性ACC为( )。
三、综合题(每题10分,共50分)
3. 请用图示法并辅以必要的文字,描述基因表达数据聚类算法K-means clustering算法的计算流程,假设有N个基因,拟分成M类。
4. 基因的5’UTR区域通常包含调控该基因表达的顺式元件,这些元件主要有启动
子或称转录因子结合位点、增强子、沉默子以及辅助元件等。一般实验学家抽取基因的5’UTR区域1000~3000bp的序列,构建到报告基因的5’端,通过分子生物学的方法进行定点突变,从而发现功能性的顺式元件。某实验室构建了80条平均长度为1500bp的基因5’UTR的DNA序列,总共鉴定了360个顺式元件。针对两条新的DNA序列A和B,长度分别为1000bp和2000bp,若通过生物信息学的方法预测出A和B上分别有7个和2个位点。对预测出的位点,若全部是随机产生的概率为多少?已知泊松分布的公式为:
e()xf(x)
x!
5. 对于两条蛋白质序列:SQYYRKD和LEYKRK,请分别用(1) Needleman-
Wunsch算法;(2) Smith-Waterman算法对两条序列作比对;对于Gap的罚分为8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分,对于Smith-Waterman算法,结果表示为单一的比对结果。打分矩阵采用BLOSUM62矩阵,部分矩阵如下: S R D Q E L K Y S 3 -1 -3 -1 -1 -1 -1 -1 R -1 7 -2 1 0 -2 2 -2 D -3 -2 6 0 2 -4 -1 -1 Q -1 1 0 5 2 -2 1 -1 E -1 0 2 2 6 -3 1 -1 L -1 -2 -4 -2 -3 4 -2 -3 K -1 2 -1 1 1 -2 5 -1 Y -1 -2 -1 -1 -1 -3 -1 9
6. 某实验室拟研究正常细胞与癌症细胞的不同,将正常细胞和癌症细胞的样品分
别点样到包含23,000个人类基因的芯片上,并发现在癌症细胞中表达显著上
欢迎下载 7
—
调的基因有1,132个。进一步做功能分析,发现人类基因中总共有1,521个基因具有某种功能GO,而在表达量上调的基因中,有49个基因具有该功能。问:该功能GO在表达量显著升高的基因中是显著出现,显著不出现,还是随机出现?要求:写出相关的计算公式,并填入实际数据,不计算最终结果。已知超几何分布的公式:
5. 请列举至少两种多序列比对算法,并简要列出算法的计算过程。
欢迎下载
8
—
一、参考答案
一、 单项选择题(每题3分,共30分)
CDDCCCACDB
二、 判断题(每题2分,共20分)
××√×√×√×√√
三、综合题(每题10分,共50分)
1. PA≈0.2, PB≈0.0027
2. (1) Needleman-Wunsch算法
比对结果: AQPPKKE LEP-KRD
(2) Smith-Waterman算法
PKKE PKRD
3. (1) 从每条序列上随即抽取一段序列模体,长度为m;(2) 构建PSSM矩阵; (3) 随机挑选一条序列;
欢迎下载 9
—
(4) 用构建好的PSSM对该序列上所有可能的模体进行打分;
(5) 根据似然性的公式进行计算,得到似然性最大的模体,为新的模体; (6) 将新的模体替换原有的序列,更新PSSM矩阵;
(7) 反复迭代计算,直至似然性结果与PSSM不再发生变化。
4. (1)
A T C G 1 2 0 0 0.25 0 0.75 0.25 0 0.75 3 0.5 0.5 0 0 4 5 6 7 0 0 0.75 0.5 0 0 0.25 0.25 1 0.25 0 0 0 0.75 0 0.25
(2) log-odd ratio=log2(648)=9.34
(3) H3=1 bit H5=1.19 bit
5. 直系同源物:两个基因通过物种形成的时间而产生;
旁系同源物:两个基因在同一物种中,通过至少一次基因复制时间而产生。
二、参考答案
三、 单项选择题 (每题3分,共30分)
CDABBDACBA
四、 填空题 (每题2分,共20分)
1. 2. 3. 4.
0.34, 0.37 7.45, 1.19, 1 0.97, 0.87
87.50%, 95.19%, 94.82%
三、综合题 (每题10分,共50分)
1. (1) 随机选取M个点,作为每一个类的中心点
(2) 计算其他点与这M个中心点的距离,将每个点按照离哪个中心点近,归
在哪个类中
(3) 针对每一类中的每一个点,计算其与其他点的距离,加和,除以该类点的
数目,找到新的中心点,即改点到该类中其他点的平均值最小,从而确定新的M个中心点
(4) 重复步骤2, 3,直到结果收敛
(5) 最终结果:N个基因表达数据被聚成M类
2. P(A) = 0.0216, P(B)=0.0446
欢迎下载
10
—
3. (1) Needleman-Wunsch算法
比对结果: SQYYRKD LEYKRK- 得分:13
(2) Smith-Waterman算法
QYYRK EYKRK 得分:22
欢迎下载 11
4.
49152121479pvalueP(m'm)m'1132m'm'023000 11325.
(1) 渐进算法:
a. 将所有序列两两比对,计算距离矩阵
b. 构建邻接进化树(neighbor-joining tree)/指导树(guide tree) c. 将距离最近的两条序列用动态规划的算法进行比对 d. “渐进”的加上其他的序列
(2) T-coffee算法:
a. 采用Clustal程序计算两两序列之间的全局最优比对结果 b. 采用LALIGN程序计算两两序列之间的局部最优比对的结果 c. 设计加权系统,综合考虑以上两类结果的因素,构建指导库 d. 最后,采用渐进式比对算法,得到最终的结果
欢迎下载 —
12
—
生物信息学 课堂测验
1. 蛋白质的磷酸化是最重要的一种翻译后修饰,实验学家最近鉴定了某个激酶X的底物,总
共20个底物蛋白质,序列平均长度500aa。在这些蛋白质上,总共鉴定了50个位点。基于这些实验数据,生物信息学家构建了相关的计算预测工具。对于给定的两个蛋白质序列A和B,长度分别为500aa和800aa,计算工具预测这两个蛋白质上分别有10和4个潜在的位点。考虑到计算工具本身具有一定的错误率,对于A和B,预测出来的位点,若全部是随机产生的概率为多少?(泊松分布)
2. 发现细胞有丝分裂过程中参与重要功能的基因,可以通过基因芯片的方法进行研究。某实
验室开展了一项工作,对细胞有丝分裂期不加nocodazole以及加nocodazole两种条件下,对人的21,000基因做表达谱分析。其中发现表达量显著升高的基因为1,532个。进一步做功能分析,发现总共1,236个基因具有某种功能F,而在表达量显著升高的基因中,有32个基因具有该功能F。问:该功能F在表达量显著升高的基因中是显著出现,显著不出现,还是随机出现?要求:写出相关的计算公式,并填入实际数据,不计算最终结果。已知超几何分布的公式:(超几何分布)
MNM mnm P(m)N n
3. 实验学家从1500个4bp的DNA序列中鉴定了300个某种X-box序列,其中第一位A的
出现概率为0.91,第二位T出现的概率为0.85,第三位A出现的概率为0.97,第四位C出现的概率为0.51,G出现的概率为0.47。其他位点出现的概率各自相同。现有两条序列, ATAC和ATAA,两条序列可能是X-box的概率为多少?(贝叶斯公式)
4. 对于两条蛋白质序列: IDRRPAE和LDRPAW,请分别用(1) Needleman-Wunsch算法;(2)
Smith-Waterman算法对两条序列作比对;对于Gap的罚分为8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分。打分矩阵采用BLOSUM62矩阵,部分矩阵如下:
A R A
R D E I L P W
4 -1 -2 -1 -1 -1 -1 -3
-1 5 -2 0 -3 -2 -2 -3
D -2 -2 6 2 -3 -4 -1 -4
E -1 0 2 5 -3 -3 -1 -3
I -1 -3 -3 -3 4 2 -3 -3
L -1 -2 -4 -3 2 4 -3 -2
P -1 -2 -1 -1 -3 -3 7 -4
W -3 -3 -4 -3 -3 -2 -4 11
(全局比对和局部比对)
5. 给定一组DNA序列如下:ACTTCCCA
AGTTCCCA ACTCGGCA CCTTCGCA
(1) 请根据上述DNA序列,写出两种PSSM; (2) 再给一条新的序列AGTCGCA,计算
欢迎下载 13
—
log-odd ratio,该例中,碱基的背景值都为0.25; (3) 请分别计算第一位和第六位所包含的信息量
6. 请用图示法并辅以必要的文字,描述Gibbs 采样抽取序列motif的过程。这里,假设有n
条序列,长度k,待抽取的motif长度为m.
7. 请列举至少两种多序列比对算法,并简要列出算法的计算过程。
ClustalX PRRP
8. 请用图示法并辅以必要的文字,描述基因表达数据聚类算法K-means clustering算法的计
算流程,假设有N个基因,拟分成M类。
9. 使用多序列工具比对两条序列,发现60%的区域相同,(1) 若这两条序列为蛋白质序列,
请计算泊松距离;(2) 若两条序列为核酸序列,请计算Jukes-Cantor距离。 泊松距离:-ln(0.6)=0.51
Jukes-Cantor距离:d=-3/4ln(1-4/3p)=0.57
10. 给定一组DNA序列如下:
CGACCTC CACCCTA CCACCTG GTACAAC
(1) 请根据上述DNA序列,写出两种PSSM; (2) 再给一条新的序列CCACCTC,计算log-odd ratio,该例中,碱基的背景值都为0.25; (3) 请计算第二位和第三位所包含的信息量。
11. 假设基因组上有一种调控信号S,长度和位置不确定。信号S和基因组序列G的碱基分布
频率分别为:
S G C 0.4 0.1 S G G 0.4 0.1 S 0.6 0.6 A 0.1 0.4 G 0.4 0.4 T 0.1 0.4 S与G之间的转移概率矩阵如下: 请用Viterbi算法计算序列AATCCGTA,预测是否存在该调控信号S,并标出相应的位置。 (马尔科夫模型)
12. 如果题目三中,假设转移矩阵并不是最终的优化结果,采用Baum-Welch算法,你如何进
行优化?这里,假设已经给你若干条实验数据作为训练样本。
13. 直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别?请用图示法并辅以必要文
字进行描述。
欢迎下载 14
因篇幅问题不能全部显示,请点此查看更多更全内容