MIDAS手注新闻数据集

MIDAS手注新闻数据集 数据来源:互联网公开数据
标签:新闻数据集, 医学主题, MeSH标注, 数据科学, 机器学习, 儿童肥胖, 心理健康, 糖尿病, 寄养儿童, 感染性疾病, 新冠病毒

数据概述: 本数据集是一个由医疗专业人员手动标注的新闻文章集合,涵盖五个特定主题:儿童肥胖、心理健康、糖尿病、寄养儿童和包括新冠病毒在内的传染病。数据集包含2020年的202篇文章,以TXT、CSV和JSON三种格式提供。每篇文章都配有详细的注释,记录了文章中包含的最多10个MeSH(Medical Subject Headings)主题词。CSV文件支持快速提取摘要和洞察不同健康主题的信息,而JSON文件则适用于评估分类器准确性等工具。

数据用途概述: 该数据集适用于数据科学和机器学习研究、主题分类、主题趋势分析等场景。研究人员可以利用此数据集开发和测试机器学习模型,例如用于分类新闻文章中的医学主题词,或者开发AI技术来识别和分析新闻中的图像。此外,数据集还适合用于研究不同健康主题之间的关联性,为健康专业人士提供有价值的见解。

举例: 此数据集包含多个文件,如re_IRE.csv和re_INF.csv,它们都包含了文章ID、文章文本以及最多9个MeSH主题词等信息。例如,在re_IRE.csv文件中,列x代表文章标题,列y代表文章正文,列z[0]至z[8]分别代表文章中的MeSH主题词1至9。通过这些数据,研究人员可以进行主题分类、趋势分析等研究,从而更好地理解各种健康主题及其发展趋势。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 13:15 (UTC)
创建于 四月 15, 2025, 13:15 (UTC)