胃癌诊断数据集
数据来源:互联网公开数据
标签:胃癌, 医学诊断, 机器学习, 临床数据, 分子生物学, 成像技术, 预测模型
数据概述:
本数据集旨在支持胃癌检测的机器学习研究,包含来自多个医疗来源的临床、人口统计、诊断和分子数据,专门针对胃癌(GC)患者。数据涵盖了患者的基本信息、诊断结果、成像和分子特征,提供了丰富的特征集,可用于识别胃癌相关的模式并预测癌症风险,涵盖遗传、环境和生活方式等多种因素。数据来源于瑞士苏黎世的专项研究合作,收集自区域医疗机构和分子诊断实验室,遵循严格的伦理和隐私规范,确保数据的真实性和可靠性。数据集包含患者的人口统计信息、临床记录和分子标志物,代表了最新的医疗研究进展,为基于人工智能的胃癌诊断提供了坚实的基础。
数据用途概述:
该数据集适用于胃癌检测和诊断的AI研究,以及临床决策支持的预测建模。研究人员可以利用此数据集开发和验证机器学习模型,特别是在深度学习领域,以实现胃癌的早期预测和诊断。数据集中的多种模态(临床、分子和影像数据)为构建高精度的预测模型提供了全面的支持。此外,数据集还可用于探索胃癌的遗传和环境风险因素,为疾病预防和治疗提供科学依据。医学影像和分子标志物的相关数据特别适合用于开发复杂的诊断算法,帮助医疗专业人员提高诊断效率和准确性。
字段定义:
以下为数据集中各字段的详细说明:
- Age
- 类型:数值型
-
描述:患者在诊断或评估时的年龄。
-
Gender
- 类型:分类型(男/女)
-
描述:患者的性别。
-
Ethnicity
- 类型:分类型
-
描述:患者的种族或民族背景。
-
Geographical Location
- 类型:分类型
-
描述:数据收集的地理区域(如国家、地区)。
-
Family History
- 类型:二元型(是/否)
-
描述:患者是否有癌症家族史。
-
Smoking Habits
- 类型:二元型(是/否)
-
描述:患者是否吸烟。
-
Alcohol Consumption
- 类型:二元型(是/否)
-
描述:患者是否饮酒。
-
Helicobacter Pylori Infection
- 类型:二元型(是/否)
-
描述:患者是否感染幽门螺杆菌,这是一种胃癌的已知危险因素。
-
Dietary Habits
- 类型:分类型
-
描述:患者的饮食习惯,如高盐摄入或高脂肪饮食。
-
Existing Conditions
- 类型:分类型
-
描述:患者的既往疾病,如糖尿病、胃炎或高血压。
-
Endoscopic Images
- 类型:分类型(正常/异常)
-
描述:内镜检查结果,反映胃黏膜的正常或异常情况。
-
Biopsy Results
- 类型:分类型(阳性/阴性)
-
描述:活检结果,指示是否检测到癌症。
-
CT Scan
- 类型:分类型(正常/异常)
-
描述:CT扫描结果,用于检测胃部潜在肿瘤。
-
Mature miRNA Accession
- 类型:分类型
-
描述:成熟微小RNA(miRNA)的登录号,一种用于癌症诊断的生物标志物。
-
Mature miRNA ID
- 类型:分类型
-
描述:成熟miRNA序列的标识符。
-
Target Symbol
- 类型:分类型
-
描述:目标基因的符号,与miRNA相关联。
-
Target Entrez
- 类型:分类型
-
描述:目标基因的唯一Entrez基因ID。
-
Target Ensembl
- 类型:分类型
-
描述:目标基因的唯一Ensembl基因ID。
-
DIANA microT Score
- 类型:数值型
-
描述:基于DIANA算法的miRNA-目标相互作用预测分数。
-
ElMMo Score
- 类型:数值型
-
描述:miRNA-目标预测的信心分数。
-
Microcosm Score
- 类型:数值型
-
描述:基于Microcosm预测算法的相互作用分数。
-
MiRanda Score
- 类型:数值型
-
描述:来自MiRanda算法的miRNA-目标对齐分数。
-
miRDB Score
- 类型:数值型
-
描述:来自miRDB数据库的miRNA-目标相互作用强度信心分数。
-
PicTar Score
- 类型:数值型
-
描述:来自PicTar算法的预测miRNA-目标相互作用分数。
-
PITA Score
- 类型:数值型
-
描述:基于目标可及性预测的分数。
-
TargetScan Score
- 类型:数值型
-
描述:来自TargetScan算法的miRNA目标预测分数。
-
Predicted Sum
- 类型:数值型
-
描述:多种算法预测置信度分数的汇总。
-
All Sum
- 类型:数值型
-
描述:来自所有可用预测方法的综合分数。
-
Label
- 类型:二元型(1:癌症,0:非癌症)
- 描述:目标变量,指示患者是否患有癌症(1为癌症,0为非癌症)。
数据集信息:
- 总记录数:212,354
- 目标标签:数据集包含一个二元目标标签,指示胃癌的有无。
总结:
本数据集为胃癌的预测和诊断提供了全面的支持,涵盖临床、分子和影像学多方面的信息。其丰富性和多样性使它成为构建高精度机器学习模型的理想选择,特别适用于深度学习方法。研究者、医疗专业人员和政策制定者可以利用这些数据进行疾病风险分析、诊断算法开发和治疗方案优化。数据集的多模态特征为跨学科研究提供了有力的支撑,有助于推动胃癌早期检测和个性化治疗的发展。