组学数据分析实战指南 | （四）基于STRING与Cytoscape的蛋白互作网络可视化进阶技巧

最新推荐文章于 2026-06-15 13:57:31 发布

原创

最新推荐文章于 2026-06-15 13:57:31 发布 · 799 阅读

标签

#蛋白互作网络 #组学数据分析 #Cytoscape #STRING

1. 从STRING到Cytoscape：不止是导入，更是数据精炼

大家好，我是你们的老朋友，一个在组学数据里摸爬滚打了十来年的“画图匠”。今天咱们接着聊蛋白互作网络（PPI）那点事。上一期可能你已经学会了怎么把一串基因名扔进STRING数据库，然后导出一个.tsv文件，再一股脑塞进Cytoscape里。但说实话，那只是“能跑通”的第一步。我见过太多研究生同学，图是画出来了，但要么节点挤成一团毛线球，要么颜色大小毫无意义，自己都看不懂，更别说放到文章里让审稿人眼前一亮了。

所以，这一期我们不谈基础操作，专攻“进阶技巧”。核心目标就一个：让你手里的PPI网络图，从“分析结果”变成“科研故事”里最有力的视觉证据。这中间的差距，往往就藏在STRING导出后的数据预处理，以及Cytoscape里那些被忽略的细节设置里。

首先，咱们得重新认识一下从STRING下载的那个文件。很多人直接Import -> Network from File就完事了，这其实错过了一个黄金调整期。STRING导出的TSV文件里，信息非常丰富，远不止“A蛋白-B蛋白”这么简单。我通常会用Excel或者文本编辑器先打开看看，里面通常包含这几列关键信息：

node1 和 node2：互作的两个蛋白。
combined_score：综合相互作用得分，这是衡量互作可信度的核心指标，范围从0到1000。
还有其他如physical_score, coexpression_score等，代表了不同证据来源的分数。

注意：直接导入，Cytoscape默认只会用node1和node2构建网络，其他所有数值信息都会被当作普通的“属性”挂载在节点或边上，需要你手动去调用。这就是我们美化的数据基础。

我的习惯是，在导入Cytoscape之前，先对这个TSV文件做一次“瘦身”和“增肥”。瘦身是指，我会根据combined_score设定一个阈值，比如只保留大于700的高置信度互作。直接在Excel里筛选删除就行。这样可以避免网络过于复杂，初始视图就清晰很多。增肥呢？是指我会把我自己的数据，比如转录组差异表达分析得到的log2FC（差异倍数）和p-value，提前作为一个单独的表格文件准备好，确保第一列基因名和STRING里的基因名完全一致（大小写、标识符都要检查！）。这一步预处理，能为后续的自动化美化打下坚实基础，省去在Cytoscape里手忙脚乱匹配数据的时间。