基于真实世界医疗健康数据的疾病预测大模型
基于多个开源通用大语言模型,使用监督式指令微调策略训练了包括心肌梗死、中风、糖尿病在内的20种健康结局的5年、10年、15年发病风险预测模型。模型借助LLaMA-Factory框架训练而成,在训练过程中通过自然语言标识的方式区分删失数据以及竞争风险事件,使其满足生存预测的需求。训练好的模型能够依据个体层面上的健康体检报告对其未来健康结局做出预测,有效解决了传统预测模型对变量缺失值的高敏感性问题。同时,训练好的模型能够直接被接入vLLM推理框架,借助Paged-Attention机制有效将大语言模型的推理效率提升了10倍以上。我们的模型在多个健康结局的评测集上都取得了相较传统方法以及GPT-4最优的结果,其中,在糖尿病5年风险预测上的AUC达到了0.92,具有较好的临床实用价值。