ggrcs包2.9版本实战：用singlercs函数分析年龄与吸烟发病率的关系（含转折点检测）

原创

于 2026-03-06 06:38:00 发布 · 220 阅读

标签

用数据讲故事：实战解析年龄与吸烟风险的复杂关联

在流行病学和临床研究中，我们常常需要探索一个连续变量（比如年龄）与某个健康结局（比如吸烟导致的疾病发病率）之间的关系。传统线性回归假设这种关系是一条直线，但现实世界往往复杂得多。年龄对健康的影响，很可能不是“每年增加固定风险”那么简单，而是在某些阶段变化平缓，在另一些阶段急剧上升。这时，限制立方样条 就成了一把解开非线性谜题的钥匙。它允许数据自己“说话”，描绘出变量间真实的曲线关系，而无需研究者事先假设一个特定的函数形式。

今天，我们就聚焦于一个具体的实战场景：利用R语言中的 ggrcs 包（特别是其2.9版本新增的 singlercs 函数），深入分析年龄与吸烟相关疾病发病率之间的非线性关联。这篇文章面向的是那些已经熟悉基本统计模型（如Cox回归），但希望将分析深度从“是否相关”推进到“如何相关”的医学研究者、数据分析师和公共卫生专业人士。我们将手把手走过从数据准备、模型拟合、可视化到关键转折点检测的完整流程，并探讨如何解读这些曲线背后蕴含的公共卫生意义。你会发现，一段优雅的R代码，配合专业的统计图形，能让你的研究发现更具说服力和洞察力。

1. 环境准备与数据初探

在开始任何分析之前，搭建一个稳定、可复现的工作环境是第一步。对于RCS分析，我们主要依赖 rms 和 ggrcs 这两个包。rms 包是Frank Harrell教授开发的回归建模策略套件，它提供了构建和验证复杂回归模型（包括RCS）的一整套工具。而 ggrcs 包则是在 ggplot2 图形语法基础上，专门为美化和平滑地呈现RCS结果而生的，它让生成出版级质量的曲线图变得异常简单。

首先，确保你的R环境已经安装了必要的包。如果尚未安装，可以通过CRAN直接获取。

# 安装核心依赖包
install.packages("rms")
install.packages("survival") # 用于生存分析
install.packages("ggplot2")
install.packages("scales")

# 安装并加载我们今天的主角：ggrcs包
install.packages("ggrcs")
library(rms)
library(survival)
library(ggplot2)
library(scales)
library(ggrcs)

接下来，我们载入示例数据。ggrcs 包贴心地自带了一个名为 smoke 的数据集，非常适合用于演示。这个数据集模拟了一项关于吸烟的长期队列研究，通常包含以下关键变量：

time: 随访时间（例如，年）
status: 结局事件状态（1=发生疾病/死亡，0=删失）
age: 研究对象入组时的年龄
gender: 性别
可能还有其他吸烟行为或协变量。

让我们先查看一下数据的基本结构，这对理解后续分析至关重要。

# 加载数据
data(smoke, package = "ggrcs")
dt <- smoke

# 查看数据前几行和结构
head(dt)
str(dt)
summary(dt$age) # 重点关注年龄的分布

通过 summary(dt$age)，你可能会看到年龄的均值、中位数、四分位数和范围。了解自变量的分布有助于判断后续RCS曲线在整个取值区间内的可靠性。例如，如果年龄在某个区间（如80岁以上）的样本量极少，那么曲线在该区间的估计就会有很大的不确定性，图形上的置信区间也会很宽。

提示：在实际分析中，务必使用自己的研究数据替换 smoke 数据集。确保你的数据已经过清洗，缺失值已妥善处理，

最低0.47元/天解锁文章