COSWARA数据集-重咳声-2020至2022
数据来源:互联网公开数据
标签:COSWARA,重咳声,COVID-19,音频数据,分类,研究,健康监测,机器学习
数据概述:
本数据集是COSWARA数据集的一个子集,由IIScLeap创建。该子集包含来自全球五个大陆(亚洲90%、北美5%、南美洲0.14%、欧洲2.5%和澳大利亚)的COVID-19阳性患者和阴性患者的重咳声音频片段,数据采集时间为2020年至2022年。
数据集在Attribution-NonCommercial-NoDerivatives 4.0 International许可下公开使用,所有与研究用途相关的权利、责任和义务均归印度理工学院(IISc)所有。希望用于研究的人员需遵循IISc在GitHub仓库中提供的使用指南。
该子集旨在为提取、预处理和执行各种音频数据特征以分类COVID-19患者提供指导。
数据集内容包括:
coswara_data:包含带有样本ID文件夹的音频文件
csvs:特定日期所有参与者的相关信息
train:包含一些预处理特征(如MFCC、一阶差分MFCC、Chroma STFT等),不含标签
train2:包含日期、ID、路径、音频特征及阳性或阴性状态
train_original:所有日期csv文件的综合信息,包含样本信息
数据用途概述:
该数据集适用于COVID-19分类任务,可以使用音频或图像(MFCC、频谱图、Mel频谱图)或预处理特征(train2.csv和train_original.csv)进行分类实现。研究人员可通过该数据集进行COVID-19的音频特征分析及分类模型的构建和评估。