1. 从STRING到Cytoscape:不止是导入,更是数据精炼
大家好,我是你们的老朋友,一个在组学数据里摸爬滚打了十来年的“画图匠”。今天咱们接着聊蛋白互作网络(PPI)那点事。上一期可能你已经学会了怎么把一串基因名扔进STRING数据库,然后导出一个.tsv文件,再一股脑塞进Cytoscape里。但说实话,那只是“能跑通”的第一步。我见过太多研究生同学,图是画出来了,但要么节点挤成一团毛线球,要么颜色大小毫无意义,自己都看不懂,更别说放到文章里让审稿人眼前一亮了。
所以,这一期我们不谈基础操作,专攻“进阶技巧”。核心目标就一个:让你手里的PPI网络图,从“分析结果”变成“科研故事”里最有力的视觉证据。这中间的差距,往往就藏在STRING导出后的数据预处理,以及Cytoscape里那些被忽略的细节设置里。
首先,咱们得重新认识一下从STRING下载的那个文件。很多人直接Import -> Network from File就完事了,这其实错过了一个黄金调整期。STRING导出的TSV文件里,信息非常丰富,远不止“A蛋白-B蛋白”这么简单。我通常会用Excel或者文本编辑器先打开看看,里面通常包含这几列关键信息:
node1和node2:互作的两个蛋白。combined_score:综合相互作用得分,这是衡量互作可信度的核心指标,范围从0到1000。- 还有其他如
physical_score,coexpression_score等,代表了不同证据来源的分数。
注意:直接导入,Cytoscape默认只会用
node1和node2构建网络,其他所有数值信息都会被当作普通的“属性”挂载在节点或边上,需要你手动去调用。这就是我们美化的数据基础。
我的习惯是,在导入Cytoscape之前,先对这个TSV文件做一次“瘦身”和“增肥”。瘦身是指,我会根据combined_score设定一个阈值,比如只保留大于700的高置信度互作。直接在Excel里筛选删除就行。这样可以避免网络过于复杂,初始视图就清晰很多。增肥呢?是指我会把我自己的数据,比如转录组差异表达分析得到的log2FC(差异倍数)和p-value,提前作为一个单独的表格文件准备好,确保第一列基因名和STRING里的基因名完全一致(大小写、标识符都要检查!)。这一步预处理,能为后续的自动化美化打下坚实基础,省去在Cytoscape里手忙脚乱匹配数据的时间。
2. 网络布局的艺术:让结构自己说话
把数据和网络导入Cytoscape后,你大概率会看到一个所有节点堆在中央的“毛球图”。别慌,这是常态。接下来,布局(Layout)是决定你网络图“第一印象”的关键。Cytoscap

151

被折叠的 条评论
为什么被折叠?



