Nature Medicine | 底骞团队开发用于评估普通人群多维衰老的大语言模型框架

2025-07-28 15:27

衰老是慢性病和死亡的主要风险因素,给全球公共健康带来巨大挑战。随着研究的深入,人们逐渐认识到,衰老并非一个单一过程,而是由多种因素交织而成的复杂系统,包括遗传、环境、生活方式、疾病史等。因此,仅靠日历年龄难以准确反映个体的真实衰老状态。目前常用的衰老评估工具,如衰弱指数和衰老时钟,虽然在一定程度上能反映个体的衰老程度,但也存在诸多局限:方法学限制监督式模型依赖于日历年龄作为标签,可能削弱对实际生物衰老信息的捕捉)、与不良健康结局关联性弱(仅捕捉衰老特定方面)、泛化性不足(难以在不同人群中广泛应用)成本高昂如表观遗传时钟依赖于甲基化检测,不适用于大规模筛查


最新观点指出,相较于有监督模型,无监督模型可能更适合捕捉衰老信号。作为目前最先进的无监督模型,大语言模型首先通过跨领域海量文本的预训练获得包含医学在内的世界知识,再通过微调激活其在医学和衰老等特定领域的专业能力。其优势在于:(1) 避免依赖衰老标签的限制;(2) 整合多种衰老相关因素(生物指标、生活方式、社会经济、疾病史、遗传等),增强与不良结局的关联;(3) 能处理任意格式数据,适合基层大规模应用。基于此,借助大语言模型强大的知识整合能力、泛化能力与多模态处理能力,有望为衰老研究打开新的突破口。


2025723日,清华大学卫健学院底骞副教授、新疆维吾尔自治区人民医院杨毅宁教授、清华大学智能产业研究院马为之助理教授及其研究团队在Nature Medicine期刊在线发表了题为Large language model-based biological age prediction in large-scale populations研究成果该研究提出了一种基于大语言模型的衰老评估框架,旨在利用大语言模型的强大能力,从非结构化的健康数据中提取与衰老相关的多维信息,并预测个体的整体和器官特异性生物年龄。


研究整合了5个具有全国代表性的人群队列:英国生物银行(UKB)、美国国家健康与营养调查(NHANES)、中国健康与养老追踪调查(CHARLS)、中国老年健康影响因素跟踪调查(CLHLS)和中国家庭追踪调查(CFPS),并结合团队自己建立的中国西北地区真实世界人群队列(NCRP),总样本量超1000万,用以评估所提出框架的性能。研究首先基于常规健康指标构建文本化体检报告,分别使用8个大语言模型评估个体的整体及器官特异性衰老程度。研究将大语言模型预测的年龄定义为更全面的衰老代理指标。随后通过分析预测年龄、年龄差距(即大模型预测年龄与日历年龄的差值)与多种衰老相关不良结局的关联性进行验证,并与传统机器学习模型及其他经典衰老指标(如表观遗传年龄、端粒长度、衰弱指数等)进行比较。最后,研究探索了大语言模型的动态衰老评估能力,将年龄差距应用于多种生物医学与临床下游任务,并对大模型的衰老评估机制进行可解释性分析。

研究具有如下亮点:

(1) 研究采用了一种基于大语言模型的无监督衰老评估框架,提供了一种新颖且全面的衰老代理指标。该框架得到生物年龄估计和年龄差距在预测多种衰老相关表型和不良健康结局(包括全因死亡)方面,优于传统的表观遗传时钟和最先进的机器学习模型。

(2) 利用大语言模型强大的泛化能力,研究在来自不同国家和地区、涵盖千万人口的不同人群中验证了其稳健的衰老评估能力。

(3) 借助大语言模型实时学习与记忆的能力,研究提出了一种动态的衰老评估框架,这是传统方法难以实现的。该框架能够处理不断积累的纵向健康信息,并能建模个体的衰老轨迹,这或许可以作为个体未来的健康数字孪生

(4) 研究开发了一种基于大语言模型的低成本衰老评估工具。仅需一份健康体检报告,大语言模型便可提供便捷、可靠且低成本的多维衰老评估,从而提高专家级医疗资源在大规模普通人群中的可及性。

(5) 通过研究所提出的方法,识别出了多个与加速衰老相关的新型蛋白质组生物标志物。研究还全面评估了年龄差距与270种疾病之间的关联,提供了一个关于加速衰老与疾病之间关联的全景视图。


综上,大语言模型能够基于常规健康体检报告,预测个体的整体生物年龄及器官特异性年龄。通过对6个大型人群队列、覆盖数千万样本的验证,研究证实了该框架的有效性与可靠性。应用大语言模型预测生物年龄及年龄差距,可实现更精准的个体衰老建模与健康风险评估,从而为大规模人群健康管理提供重要支持。


清华大学万科公共卫生与健康学院副教授底骞、新疆维吾尔自治区人民医院教授杨毅宁、清华大学智能产业研究院助理教授马为之为该研究共同通讯作者。清华大学万科公共卫生与健康学院博士生李彦君、黄琦,北京大学王选计算机研究所博士生姜金,清华大学万科公共卫生与健康学院博士后杜旭升为该研究共同第一作者。