【CAIE福利】癌症风险因素数据集免费分享(2000条记录,关联5类癌症与多维度风险因素)
2025-10-27
为助力癌症风险评估相关的科研探索与人工智能模型开发,CAIE现面向读者免费分享一套高质量癌症风险因素数据集。该数据集整合生活方式、环境暴露及遗传信号与癌症类型的关联信息,可为机器学习建模及医学相关研究提供有力支撑。· 样本规模:包含2000条个人层面记录,每条记录涵盖21个特征,全方位覆盖癌症风险相关的多维度信息。· 核心关联逻辑:实现“生活方式(吸烟频率、红肉摄入、身体活动水平等)、环境暴露(空气污染程度、职业危害因素等)、遗传与健康标识(BRCA突变、幽门螺杆菌感染等)”与5类癌症类型(肺癌、乳腺癌、结直肠癌、前列腺癌、皮肤癌)的深度关联,为探索癌症风险模式提供数据基础。· 特征与编码规范:特征编码清晰且具有一致性,包含“0-10序数强度指数”(用于表征吸烟频率、红肉摄入量等的强度/频率梯度)、BMI、年龄等基础指标,“家族史、基因突变”等二值化标识;同时可基于“综合风险指数”开展“低/中/高”风险分层,满足多样化学术与应用分析需求。✅ 人工智能领域:支持多类别癌症类型的机器学习模型训练与验证;可服务于癌症风险分层相关算法的开发与优化。✅ 医学研究领域:助力生活方式、环境暴露与癌症风险的关联机制分析;支撑癌症风险因素流行率及分布规律的探索性研究。✅ 科研教育领域:可作为癌症相关课题的教学案例,服务于数据分析实践教学(注:本数据集仅用于研究与教育目的,不可用于临床场景)。为确保数据集快速触达需求人群,提供便捷获取通道,具体步骤如下:下载并登录第二生命APP,选择AI社区,即可发现相关数据资料。AI社区内有众多用户无偿分享的数据集,均可直接下载,欢迎加入。