找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 数据2023年数据中心人工智能竞赛文本数据-亚马逊评论星级预测数据集

    2025年4月14日   

    数据2023年数据中心人工智能竞赛文本数据-亚马逊评论星级预测数据集 数据来源:互联网公开数据 标签:数据中心人工智能,文本分类,亚马逊评论,星级预测,机器学习,标签噪声,异常值,竞赛数据 数据概述:...
    packageimg
  • 医用大麻品牌注册数据集

    2025年4月14日   

    医用大麻品牌注册数据集 数据来源:互联网公开数据 标签:医用大麻,品牌注册,消费者保护,统计分析,数据可视化,缺失值处理,行业研究 数据概述: 本数据集包含了所有在州消费者保护部门注册的医用大麻品牌的信息,数据收集自消费者保护部门。数据集包含了数值型和类别型特征,为缺失值填充、统计分析和数据探索性分析提供了丰富的内容。 数据用途概述:...
    packageimg
  • 孟加拉语新闻评论情感数据集

    2025年4月14日   

    孟加拉语新闻评论情感数据集 数据来源:互联网公开数据 标签:情感分析,孟加拉语,新闻评论,多视角标注,自然语言处理,孟加拉语NLP,罗马化孟加拉语NLP 数据概述:...
    packageimg
  • 多语言文本检测与识别自然语言处理数据集

    2025年4月14日   

    多语言文本检测与识别自然语言处理数据集 数据来源:互联网公开数据 标签:自然语言处理,多语言检测,语言识别,机器学习,文本分析,文化多样性,全球连接 数据概述:...
    packageimg
  • 桌面游戏信息数据集

    2025年4月14日   

    桌面游戏信息数据集 数据来源:互联网公开数据 标签:桌面游戏,BoardGameGeek,游戏信息,游戏排名,游戏特征,游戏设计,游戏出版,游戏艺术家,数据挖掘,SQL练习,数据分析 数据概述:...
    packageimg
  • 鲁比亚斯评论NLP数据集

    2025年4月14日   

    鲁比亚斯评论NLP数据集 数据来源:互联网公开数据 标签:NLP,自然语言处理,评论分析,情感分析,讽刺检测,Kaggle竞赛,文本数据 数据概述: 本数据集包含与“鲁比亚斯”相关的评论,涵盖了用户对鲁比亚斯的各类意见和反馈。数据集为自然语言处理(NLP)任务提供了丰富的文本样本,适合进行情感分析、讽刺检测等文本挖掘任务。 数据用途概述:...
    packageimg
  • 优秀数据集图谱

    2025年4月14日   

    优秀数据集图谱 数据来源:互联网公开数据 标签:数据集图谱,Neo4j,图数据库,数据分类,数据科学,数据源,数据目录,项目决策 数据概述: 优秀数据集图谱是一个Neo4j图数据库,该数据库对从Awesome Public Datasets GitHub列表中抓取和分类的数据集和数据源进行了目录编制。我们从一个简单的Awesome Public...
    packageimg
  • 反馈训练数据集5折交叉验证2023

    2025年4月14日   

    反馈训练数据集5折交叉验证2023 数据来源:互联网公开数据 标签:反馈,训练数据,机器学习,数据集,5折交叉验证,数据科学,数据预处理 数据概述:...
    packageimg
  • 加州住房市场数据集1990

    2025年4月14日   

    加州住房市场数据集1990 数据来源:互联网公开数据 标签:加州,住房,房价,人口统计,数据清洗,缺失值处理,分类数据处理 数据概述:...
    packageimg
  • RSNA竞赛训练和测试阶段1的Dicom医学图像元数据集

    2025年4月14日   

    RSNA竞赛训练和测试阶段1的Dicom医学图像元数据集 数据来源:互联网公开数据 标签:RSNA竞赛,医学图像,Dicom元数据,CSV格式,医学影像分析,放射学研究 数据概述:...
    packageimg
  • 印度古吉拉特语新闻标题数据集1963-2021

    2025年4月14日   

    印度古吉拉特语新闻标题数据集1963-2021 数据来源:互联网公开数据 标签:古吉拉特语,新闻标题,文本分类,机器学习,自然语言处理,数据清洗 数据概述: 本数据集包含约6500篇从古吉拉特语新闻网站收集的新闻标题。数据集已经过清洗处理,并分为训练集和测试集,适用于对古吉拉特语文本分类模型的性能进行基准测试。 数据用途概述:...
    packageimg
  • 医疗健康患者就诊记录分析数据集

    2025年4月14日   

    医疗健康患者就诊记录分析数据集 数据来源:互联网公开数据 标签:医疗健康,患者,就诊记录,疾病诊断,医疗费用,数据库,SQL,数据分析 数据概述:...
    packageimg
  • 印度短信垃圾信息检测数据集1963-2021

    2025年4月14日   

    印度短信垃圾信息检测数据集1963-2021 数据来源:互联网公开数据 标签:短信,垃圾信息检测,文本分类,机器学习,自然语言处理 数据概述:...
    packageimg
  • 印度销售交易自然语言处理数据集1963-2021

    2025年4月14日   

    印度销售交易自然语言处理数据集1963-2021 数据来源:互联网公开数据 标签:销售数据,自然语言处理,文本提取,会计自动化,机器学习,训练数据,客户信息,产品信息,支付方式 数据概述:...
    packageimg
  • 房屋价格预测数据集类别特征已编码

    2025年4月14日   

    房屋价格预测数据集类别特征已编码 数据来源:互联网公开数据 标签:房屋价格,数据预处理,类别特征,编码,数据清洗,机器学习,预测分析 数据概述:...
    packageimg
  • 电影评论数据集情感分析用

    2025年4月14日   

    电影评论数据集情感分析用 数据来源:互联网公开数据 标签:电影评论,情感分析,自然语言处理,二分类,正面评论,负面评论 数据概述: 本数据集来源于IMDb.com网站,由Bo Pang和Lillian...
    packageimg
  • 药物评价清理版数据集

    2025年4月14日   

    药物评价清理版数据集 数据来源:互联网公开数据 标签:药物评价,健康,医学,分类,回归,聚类,情感分析 数据概述: 本数据集是药物评价数据集的清理版本,包含患者对特定药物的评价信息。数据来源于爬取在线药品评价网站,包含两个.csv(制表符分隔值)文件。数据集包含214,063个实例和5个特征,数据类型为多元文本数据。 数据用途概述:...
    packageimg
  • 订单数据集

    2025年4月14日   

    订单数据集 数据来源:互联网公开数据 标签:订单记录,电商数据,商业分析,数据分析学习,数据行业入门 数据概述...
    packageimg
  • 乌尔都语和英语文本摘要数据集

    2025年4月14日   

    乌尔都语和英语文本摘要数据集 数据来源:互联网公开数据 标签:自然语言处理,摘要生成,乌尔都语,英语,多语言任务,机器学习 数据概述: 本数据集名为“AllDataV1”,专为自然语言处理(NLP)任务设计,特别适用于乌尔都语和英语的抽象摘要任务。数据集包含4,386条记录,共有5个字段,结构清晰,具体内容如下: 1. Unnamed:...
    packageimg
  • 科学论文元数据数据集

    2025年4月14日   

    科学论文元数据数据集 数据来源:互联网公开数据 标签:科学论文,元数据,学术研究,文献分析,引用网络,研究趋势,数据探索 数据概述...
    packageimg