找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 多语言医学问答数据集MedQA-4K数据集

    2025年4月15日   

    多语言医学问答数据集MedQA-4K数据集 数据来源:互联网公开数据 标签:医学,问答,多语言,自然语言处理,机器学习,英语,中文,韩语,医疗,数据集 数据概述: 本数据集源于MedQA数据集,并精心挑选了多选题形式的医学问题。该数据集专为多语言自然语言处理和微调语言模型而设计。 关键特征: 语言分布:...
    packageimg
  • LLM提示恢复数据集800个提示

    2025年4月15日   

    LLM提示恢复数据集800个提示 数据来源:互联网公开数据 标签:LLM,提示恢复,自然语言处理,机器学习,竞赛数据,文本生成,人工智能 数据概述: 本数据集为LLM提示恢复竞赛而创建,包含了800个精心设计的语言模型提示。这些提示涵盖了多种应用场景和主题,旨在用于评估和改进语言模型的提示恢复能力。数据集中的每个提示都经过仔细设计,确保多样性和代表性。...
    packageimg
  • 项目裁员数据清洗数据集

    2025年4月15日   

    项目裁员数据清洗数据集 数据来源:互联网公开数据 标签:数据清洗,项目管理,裁员,数据完整性,SQL,数据库,数据分析,错误检测 数据概述: 本数据集包含了项目裁员记录的清洗结果,经过数据清洗、转换和完整性检查等处理步骤,以提高数据的准确性和适用性。数据清洗过程中包括了删除重复记录、处理缺失值、纠正不一致的数据条目以及检测和修正错误等操作。...
    packageimg
  • 命名实体识别数据集

    2025年4月15日   

    命名实体识别数据集 数据来源:互联网公开数据 标签:命名实体识别,自然语言处理,预训练语言模型,文本标注,机器学习,数据科学,Kaggle数据集 数据概述: 本数据集主要用于运行基于预训练语言模型的命名实体识别(NER)任务的笔记本。数据集包含三个关键字段:1. 文本内容(Text),2. 实体标注(Labels),3....
    packageimg
  • SQL注入检测数据集2023

    2025年4月15日   

    SQL注入检测数据集2023 数据来源:互联网公开数据 标签:SQL注入,网络安全,数据清洗,机器学习,训练集,验证集,测试集 数据概述:...
    packageimg
  • 数据分析与人工智能模型研究数据集

    2025年4月15日   

    数据分析与人工智能模型研究数据集 数据来源:互联网公开数据 标签:数据分析,人工智能,机器学习,数据清洗,特征工程,模型训练,结果评估 数据概述:...
    packageimg
  • 海事文件标签分类数据集

    2025年4月15日   

    海事文件标签分类数据集 数据来源:互联网公开数据 标签:海事文件,标签分类,合同,条款,行业术语,数据清洗,预处理,机器学习,文档分析 数据概述:...
    packageimg
  • 美国失踪女性数据集

    2025年4月15日   

    美国失踪女性数据集 数据来源:互联网公开数据 标签:失踪女性,犯罪研究,数据分析,地理位置,社会问题 数据概述: 本数据集收录了美国失踪女性的相关记录,涵盖她们的失踪地点、失踪日期等关键信息。数据集为研究失踪女性案件提供了基础数据支持。 数据用途概述:...
    packageimg
  • 基于姓名概率的自动化性别识别数据集

    2025年4月15日   

    基于姓名概率的自动化性别识别数据集 数据来源:互联网公开数据 标签:姓名, 性别, 概率, 社会安全记录, 数据清洗, 性别识别, 自动化, 预测模型 数据概述:...
    packageimg
  • 机器人逆运动学数据分析集

    2025年4月15日   

    机器人逆运动学数据分析集 数据来源:互联网公开数据 标签:逆运动学,机器人,数据分析,数据清理,关节参数,末端执行器位置 数据概述: 本数据集包含机器人关节参数及其对应的末端执行器位置的数据,适用于数据清理和分析。数据集涵盖了机器人各关节的参数设置及其产生的末端执行器位置信息,为逆运动学研究提供了必要的数据基础。 数据用途概述:...
    packageimg
  • 虚假新闻内容检测数据集

    2025年4月15日   

    虚假新闻内容检测数据集 数据来源:互联网公开数据 标签:虚假新闻,自然语言处理,NLP,内容检测,文本分类,社交媒体,新闻平台,机器学习 数据概述...
    packageimg
  • 伊斯坦布尔人口统计数据集

    2025年4月15日   

    伊斯坦布尔人口统计数据集 数据来源:互联网公开数据 标签:伊斯坦布尔,人口统计,数据清理,收入,消费,国内生产总值,货币单位 数据概述: 本数据集提供了伊斯坦布尔的人口统计信息,涵盖1963年至2021年间的数据。数据尚未经过彻底清洗,这为数据清理练习提供了良好的素材。在土耳其的行政区划体系中,城市(City)> 县(County)>...
    packageimg
  • 英语到阿萨姆语平行语料库数据集

    2025年4月15日   

    英语到阿萨姆语平行语料库数据集 数据来源:互联网公开数据 标签:英语,阿萨姆语,平行语料库,自然语言处理,翻译,语言学 数据概述: 本数据集包含大量经过清理的英语到阿萨姆语平行语料库数据,适用于自然语言处理和机器翻译研究。数据集分为两部分:1_eng.txt 包含大量的英语句子,1_assamese.txt...
    packageimg
  • 电影元数据和评论数据集

    2025年4月15日   

    电影元数据和评论数据集 数据来源:互联网公开数据 标签:电影元数据,用户评论,IMDb,电影推荐,情感分析,趋势分析,数据清洗,数据预处理 数据概述:...
    packageimg
  • 清理后的FER2013情感识别数据集

    2025年4月15日   

    清理后的FER2013情感识别数据集 数据来源:互联网公开数据 标签:情感识别,图像分类,数据清洗,面部表情,机器学习,数据平衡,计算机视觉 数据概述:...
    packageimg
  • 虚拟数据集

    2025年4月15日   

    虚拟数据集 数据来源:互联网公开数据 标签:虚拟数据,机器学习,模型测试,数据集,训练数据,测试数据,随机生成 数据概述:...
    packageimg
  • 航空票价数据库

    2025年4月15日   

    航空票价数据库 数据来源:互联网公开数据 标签:航空票价,航班,时间序列,预测分析,数据清洗,探索性数据分析 数据概述:...
    packageimg
  • 航天工程与空间任务对话数据集AstroChat

    2025年4月15日   

    航天工程与空间任务对话数据集AstroChat 数据来源:互联网公开数据 标签:航天工程,空间任务,对话,LLM,自然语言处理,人工智能,数据集,监督学习,GPT-4,对话生成 数据概述: AstroChat 是一个合成生成的数据集,包含 901 个对话,专门为航天工程和空间任务工程领域设计。该数据集旨在用于监督微调聊天大型语言模型...
    packageimg
  • 工作广告数据集

    2025年4月15日   

    工作广告数据集 数据来源:互联网公开数据 标签:工作广告,数据清洗,数据审计,就业市场,职位描述,时间序列,数据完整性 数据概述:...
    packageimg
  • 大模型生成文本补充数据集

    2025年4月15日   

    大模型生成文本补充数据集 数据来源:互联网公开数据 标签:大模型,生成文本,竞争数据,文本检测,提示恢复,Kaggle竞赛,AI生成文本识别 数据概述: 本数据集提供了适用于大模型-centric...
    packageimg