Python实战：用NumPy实现蛋白质chi角one-hot编码（附完整代码）

最新推荐文章于 2026-06-16 09:53:34 发布

原创

最新推荐文章于 2026-06-16 09:53:34 发布 · 172 阅读

标签

#Python #NumPy #生物信息学 #one-hot编码

收录于

Python实战：用NumPy实现蛋白质chi角one-hot编码（附完整代码）

在生物信息学领域，蛋白质结构分析是一个核心课题。蛋白质的构象变化往往决定了其功能特性，而侧链chi角则是描述这种构象变化的关键参数。本文将带你用Python的NumPy库，从零开始构建一个完整的chi角one-hot编码系统。

1. 理解蛋白质chi角的基础概念

蛋白质的chi角是指氨基酸侧链的二面角，用于量化侧链原子的空间排列。不同氨基酸拥有不同数量的chi角：

单chi角氨基酸：如半胱氨酸(CYS)、丝氨酸(SER)
双chi角氨基酸：如天冬氨酸(ASP)、苯丙氨酸(PHE)
三chi角氨基酸：如谷氨酸(GLU)、蛋氨酸(MET)
四chi角氨基酸：如精氨酸(ARG)、赖氨酸(LYS)

这些角度通常以度数表示，范围在-180°到180°之间。在实际计算中，我们常将其离散化为特定区间的分类变量，这正是one-hot编码的用武之地。

提示：甘氨酸(GLY)和丙氨酸(ALA)没有可旋转的侧链chi角，在编码时需要特殊处理。

2. 构建氨基酸基础数据框架

首先需要建立氨基酸的基础数据库，包括原子类型和chi角定义：

import numpy as np

# 标准氨基酸单字母代码
restypes = ['A','R','N','D','C','Q','E','G','H','I',
            'L','K','M','F','P','S','T','W','Y','V']

# 单字母转三字母映射
restype_1to3 = {
    'A': 'ALA', 'R': 'ARG', 'N': 'ASN', 'D': 'ASP',
    'C': 'CYS', 'Q':