Real-world Big Data and Public Health Large Models
真实世界大数据和公共卫生垂类大模型
利用真实世界电子病历、电子健康档案、体检报告、病案首页、医学影像等多模态数据,训练疾病风险预测与健康干预指导大模型。其中,疾病风险预测大模型可以根据输入的文本化健康信息,预测个体未来不同时间段内的心肌梗死、中风等多种重大慢病风险。而健康干预指导大模型则可以为慢病高风险个体提供个性化、专业化的健康建议与指导,以预防疾病的发生发展。

基于真实世界医疗健康数据的疾病预测大模型


基于多个开源通用大语言模型,使用监督式指令微调策略训练了包括心肌梗死、中风、糖尿病在内的20种健康结局的5年、10年、15年发病风险预测模型。模型借助LLaMA-Factory框架训练而成,在训练过程中通过自然语言标识的方式区分删失数据以及竞争风险事件,使其满足生存预测的需求。训练好的模型能够依据个体层面上的健康体检报告对其未来健康结局做出预测,有效解决了传统预测模型对变量缺失值的高敏感性问题。同时,训练好的模型能够直接被接入vLLM推理框架,借助Paged-Attention机制有效将大语言模型的推理效率提升了10倍以上。我们的模型在多个健康结局的评测集上都取得了相较传统方法以及GPT-4最优的结果,其中,在糖尿病5年风险预测上的AUC达到了0.92,具有较好的临床实用价值。

基于大语言模型的个性化健康指导与疾病干预和幻觉度量


现有医疗资源不平衡致使健康干预差异大,疾病预防与干预缺乏大语言模型基准数据集且幻觉问题阻碍大语言模型在医疗领域的实际应用。因此,开展了基于动态多专家智能体的个性化健康指导与干预和由异常检测驱动的大语言模型幻觉度量研究。通过深入开展本研究,有望提升医疗服务质量与可及性,降低医疗成本,促进个性化健康管理并提高医疗大模型应用的安全性和信任度。