斯坦福58万小时炼出“AI X光”!睡一晚,预知6年生死,130种病全能发现

2026-01-09

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

斯坦福大学的研究人员开源了一个多模态睡眠模型SleepFM。主要用超过585000小时的睡眠监测数据训练而成,直接把睡眠分析从只能看睡眠问题升级到能预测一堆疾病,这波操作真的太颠覆了。

这个模型已经发表在Nature上,含金量还是相当高的。因为不光解决了睡眠数据不好统一、不好整合的老难题,还能以超高精度预测痴呆、癌症等130多种疾病,相当于AI界的X光机。

今天咱们先上测试数据,后说模型架构创新那些,估计很多人都好奇这个模型的测试数据呢吧。

研究团队把斯坦福队列的PSG数据和电子健康记录关联起来,提取了1868种疾病分类,最后筛选出患病率不低于1.5%1041种疾病进行预测评估,结果挺让人惊喜的。

130种疾病的预测一致性指数和6年受试者工作特征曲线下面积都达到0.75以上,而且经过统计检验,结果都很可靠。这些疾病涵盖了肿瘤、妊娠并发症、循环系统疾病、精神障碍等多个类别。

其中全因死亡率的预测一致性指数达到0.846年受试者工作特征曲线下面积也是0.84;痴呆症的预测一致性指数更是高达0.856年受试者工作特征曲线下面积0.87

可能上面那些数据看起来有点难懂是吧,简单来说就是有 130 种疾病的预测效果都很不错,不管是预测风险排序的准确性,还是区分患者是否会患病的能力,评分都在 0.75 以上已经很准了。

并且像一个人未来会不会去世,模型预测的准确性评分能到 0.84;就连痴呆症这种难提前发现的病,预测准确性评分更是高达 0.85。

意味着靠一晚的睡眠数据,就能相对精准地预判未来 6 年内会不会得这些病。很厉害也很神奇~

心肌梗死、心力衰竭、慢性肾病、中风和心房颤动的预测一致性指数也都在0.78以上,完全达到了临床实用的水平。这也就是说,只要一晚的睡眠数据,就能精准预测未来6年内这些疾病的发生风险。

在神经退行性疾病方面,阿尔茨海默病和帕金森病的预测一致性指数分别达到0.910.89,明显高于只靠人口统计学特征的模型。

研究发现,脑电信号对这类疾病的预测贡献最大,尤其是快速眼动睡眠阶段的异常模式,这和之前研究发现的快速眼动睡眠障碍是帕金森病早期征兆的结论一致。

而且和依赖核磁共振等影像技术的传统方法比起来,SleepFM只需要一晚睡眠数据,不仅精度相当,还没有侵入性,对患者来说非常友好。

心血管疾病方面,高血压心脏病、颅内出血、动脉粥样硬化等的预测表现都很突出。

心电信号和呼吸信号的结合是预测成功的关键,心电信号能捕捉心脏电活动的异常,呼吸信号能反映睡眠呼吸暂停等风险因素,二者结合正好契合心血管疾病的发病机制。

肿瘤疾病方面,前列腺癌、乳腺癌和皮肤黑色素瘤的预测表现都很优异,预测一致性指数都在0.83以上。

这和现有研究中睡眠时长、睡眠规律性与癌症风险相关的结论相符,模型可能是通过捕捉睡眠碎片化、睡眠效率等指标,间接反映出身体的肿瘤易感性。

虽然具体的生理机制还需要进一步研究,但这无疑为癌症早期筛查提供了新的思路。

为了验证模型的实用价值,研究团队测试了不同数据量下的性能表现。在睡眠心脏健康研究队列中,只使用10%的微调数据,SleepFM在四种核心疾病上的表现就超过了使用5倍数据的人口统计学模型

而且随着数据量增加,模型性能稳步提升,波动还特别小,显示出良好的扩展性。

在斯坦福队列中,就算只使用25%的预训练数据,模型对大多数疾病的预测一致性指数也能达到0.70以上,足以看出大规模预训练带来的特征迁移价值。

这种高数据效率意味着,就算在临床数据有限的场景中,SleepFM也能保持良好性能,大大拓展了它的应用范围。

睡眠这事看着简单,其实是大脑、心脏、呼吸和肌肉系统在协同工作,只要哪里出点小问题,睡眠模式可能就会变。

不管是精神方面的毛病,还是老年痴呆、心脏病甚至癌症,好多研究都证实和睡眠有关系。而多导睡眠监测也就是PSG,就像个全能记录仪,能同时捕捉脑电、眼电、心电、肌电和呼吸这些生理信号,理论上早就该成为疾病预警的利器。

但实际情况是,这宝贝数据一直没发挥出真正的价值。首先是数据用得太浪费,以前的研究大多靠人手动标注,不仅费时间,不同人标得还不一样,而且数据集都不大,最多也就一万多份记录;

其次是模型太挑设备,不同医院的PSG设备配置不一样,记录的通道数量也不同,导致模型换个地方就不好使;

最后是预测范围太窄,大多只能看单一的睡眠障碍,根本没挖掘出睡眠数据能预测多种疾病的潜力。

为了破解睡眠数据分析的难题,斯坦福研究团队花了好几年打磨出SleepFM,从数据处理到模型架构再到训练方法,每一处都有创新,硬是把多模态睡眠数据的价值给挖透了。

确定要退出登录吗?
确定 取消
推广有奖