Few-Label Multimodal Modeling of SNP Variants and ECG Phenotypes Using Large Language Models for ...

原创于 2026-06-26 10:30:00 发布 · 1 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2871 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

本文针对心血管疾病（CVD）风险分层中高质量标注数据稀缺、多模态数据（SNP变异与ECG表型）难以有效整合的问题，提出了一种基于大语言模型（LLMs）的少标签多模态建模框架。核心内容包括：

研究背景：心血管疾病是全球首要死因，传统风险评估依赖单模态数据（如SNP的GWAS研究、ECG表型分析），但多模态数据整合面临标注稀缺、高维数据处理等挑战，传统有监督模型效果受限。
数据与方法：
- 数据集：整合PhenoAI HPP库的8856名参与者数据，包含SNP变异、ECG特征及临床标注，按标注情况分为3个层级（Tier 1：确诊心血管疾病；Tier 2：间接风险因素；Tier 3：无已知诊断）。
- 核心流程：①伪标签生成（通过k-means聚类对三层级数据分配伪标签）；②Top-k聚类筛选（保留高可信度伪标签）；③少标签微调（结合LoRA参数高效微调与思维链（CoT）推理，增强模型可解释性）。
实验与结果：对比GPT-2、Llama 3.2 1B、DeepSeek 1.3B三种模型，结果显示：
- 多模态融合（SNP+ECG）显著优于单模态模型， ablation实验证实两种模态的协同作用；
- DeepSeek 1.3B表现最优，在少标签设置下准确率达0.892，接近全量数据训练效果；
- CoT推理使模型能生成临床相关解释，提升临床适用性。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。