生物信息学实战:从序列“指纹”到生命“家谱”的完整构建指南
当你第一次拿到一段未知的DNA或蛋白质序列时,那种感觉就像考古学家发现了一块刻有陌生文字的石板。它来自哪里?它与谁有关?它在生命的长河中处于什么位置?这些问题,正是生物信息学中序列比对与进化树构建所要回答的核心。对于刚踏入这个领域的初学者而言,工具繁多、参数复杂、流程琐碎,常常让人望而却步。本文旨在为你剥开层层技术外壳,用最直观的“手把手”方式,带你走通从一段神秘序列出发,最终绘制出其进化“家谱”的全过程。我们将聚焦于两个最经典、最实用的工具组合:NCBI的BLAST用于“寻亲问祖”,MEGA用于“梳理族谱”。无论你是分子生物学的研究生,还是对生命演化充满好奇的爱好者,这份指南都将为你提供清晰、可落地的操作路径,并深入探讨每一步背后的“为什么”,而不仅仅是“怎么做”。
1. 起点:理解你的序列与选择合适的“猎手”工具
在开始任何操作之前,我们需要建立两个核心认知。第一,序列相似性与序列同源性是紧密相关但截然不同的概念。你可以把相似性理解为两段文本表面上的字符匹配程度,而同源性则意味着它们源自一个共同的祖先文本。高度相似通常暗示同源,但低度相似未必就不同源——可能只是因为漫长的进化岁月积累了太多突变。第二,我们整个分析流程遵循一个经典范式:通过BLAST进行快速的“大海捞针”式相似性搜索,锁定一个潜在的“亲属”群体;然后通过MEGA对这个群体进行精细的“多序列比对”,找出它们之间保守与变化的模式;最后基于这些模式,构建出描绘它们进化关系的树状图,即系统发育树。
工欲善其事,必先利其器。我们的核心工具组合如下:
- BLAST (Basic Local Alignment Search Tool):由NCBI维护的在线“超级搜索引擎”。它能在数秒到数分钟内,将你的查询序列与海量的公共数据库(如nr, RefSeq)进行比对,找出那些相似的序列。它擅长处理两两比对,是我们探索未知序列的第一步。
- MEGA (Molecular Evolutionary Genetics Analysis):一款功能强大且用户界面友好的本地软件。它集成了从多序列比对、模型选择到进化树构建与美化的全套流程。特别是其内置的ClustalW/MUSCLE等比对算法和丰富的系统发育分析方法(如邻接法NJ、最大似然法ML),使其成为初学者和专家的共同选择。
提示:建议在开始前,在本地计算机上安装好最新版的MEGA软件(可从其官网免费获取),并确保网络通畅以访问NCBI BLAST服务。
1.1 获取与准备你的起始序列
你的旅程始于一条序列。它可能来自你的实验测序结果(如一个PCR产物),也可能来自文献或数据库中的一个你感兴趣的基因。通常,序列会以FASTA格式保存,这是生物信息学中最通用、最简单的文本格式。
一个典型的FASTA格式文件如下所示:
>Sequence_ID_1 Description of the first sequence
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
>Sequence_ID_2 Description of the second sequence
ATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
>符号开头的行是序列标识符和描述行,下面直到下一个>之前的所有行都是该序列的核苷酸(A,T,C,G)或氨基酸(20种字母)字符。
关键准备步骤:
- 明确序列类型:是DNA/RNA核苷酸序列,还是蛋白质氨基酸序列?这决定了后续BLAST搜索和比对时选择的程序和数据库。
- 检查序列质量:确保序列中不含非标准字符(如数字、空格)。对于测序得到的原始序列,可能需要进行简单的修剪,去除两端低质量的碱基。
- 保存为纯文本文件:将你的查询序列保存为一个
.fasta或.fa后缀的文本文件。用记事本或任何代码编辑器都能创建和查看。
2. 第一步:使用BLAST进行相似性搜索与“亲属”招募
现在,你手握一把未知的“钥匙”(查询序列),准备打开NCBI这座巨大的“序列图书馆”的大门,寻找能匹配的“锁”。
2.1 访问BLAST并选择正确程序
打开浏览器,访问NCBI BLAST主页。你会看到几个核心程序选项,选择哪一个至关重要:
| 程序名称 | 适用查询序列类型 | 搜索数据库类型 | 典型应用场景 |
|---|---|---|---|
blastn |
核苷酸 | 核苷酸 | 寻找DNA序列的相似DNA序列(如基因同源物、EST匹配)。 |
blastp |


453

被折叠的 条评论
为什么被折叠?



