找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • 涉及信用卡申请所有属性名称和值都已更改为无意义的符号以保护数据的机密性

    2025年1月7日   

    数据集名称:涉及信用卡申请所有属性名称和值都已更改为无意义的符号以保护数据的机密性 数据数量:5 数据集关键词:信用卡, 机密性 数据集格式:data, names, lisp
    packageimg
  • 垃圾邮件数据库

    2025年1月7日   

    数据集名称:垃圾邮件数据库 数据数量:3 数据集关键词:数据库, 垃圾邮件 数据集格式:data, names, DOCUMENTATION
    packageimg
  • 欺诈检测数据集

    2024年12月24日   

    该数据集使用 Faker 库生成,用于模拟交易数据。它包含多个列,代表用户和交易信息,包括用于检测欺诈活动的特征。数据包括分类、数字和日期时间值的混合,需要对其进行处理才能进行机器学习。
    packageimg
  • 中华人民共和国拼音用规范

    2024年12月17日   

    数据来源中华人民共和国教育部官方网站,其中包含全面的公开信息并且进行了分类整理 数据集包含:拼音使用规范及使用规则
    packageimg
  • 医疗保健数据集

    2024年12月13日   

    数据名称:医疗保健数据集 数据说明:该数据集的灵感源于教育和研究对实用且多样化的医疗保健数据的需求。医疗保健数据通常很敏感且受隐私法规的约束,因此很难访问以进行学习和实验。为了弥补这一差距,我利用 Python 的 Faker 库生成了一个数据集,该数据集反映了医疗保健记录中常见的结构和属性。 数据时间:更新于2024年 数据来源:互联网数据
    packageimg
  • 国家个人金融信息保护技术规范政策文献(截止2024年)

    2024年11月4日   

    数据名称:中国个人金融信息保护技术规范政策文献(截止 2024 年) 数据范围:截止2024年中国个人金融信息保护技术规范政策文献 数据时间:截止2024年 数据说明:格式为PDF文件,互联网付费下载数据。
    packageimg
  • 中国数据分类分级数据集压缩文件(截止2024年)

    2024年11月11日   

    数据名称:中国数据分类分级数据集压缩文件(截止2024年) 数据范围:截止2024年中国数据分类分级数据 数据时间:截止 2024年 数据说明:共计25份数据,含地方、国家相关分类分级指南、分类分级规则、地方标准; 数据来源:互联网公开数据
    packageimg
  • 企业融资课程资料一

    2024年11月11日   

    关于企业债务融资、供应链金融、可交换债、明股实债及融资租赁的PDF文件,涵盖了操作流程、风险管理、案例分析和税务处理等内容。以下是简介: 企业债务融资:包含文件《企业债券融资工具对比与发行流程》、《公司债务实务操作(一)(二)(三)》,提供了企业债券融资的工具对比、发行流程和实务操作的详细步骤,适合企业财务人员学习债务融资的基础操作和实际应用。...
    packageimg
  • 私募基金业务流程指引

    2024年11月11日   

    关于“私募基金管理与运营”的视频课程列表,内容涵盖了私募基金设立的税务问题、管理人登记与持续管理、产品备案与运营、机构合作以及运营实践,适合私募基金管理人或相关从业人员学习。 以下是简介: 直播答疑:文件“【整理】直播答疑-1”提供了关于私募基金的常见问题解答,帮助学习者解决实际操作中的疑难问题。...
    packageimg
  • 垃圾短信垃圾邮件收集数据集

    2024年11月9日   

    从 Grumbletext 网站手动提取了 425 条垃圾短信。这是一个英国论坛,手机用户在此公开声明垃圾短信,但大多数用户并未报告收到的垃圾短信。 NUS SMS Corpus (NSC) 的 3,375 条随机选择的 SMS 短信子集,该数据集包含约 10,000...
    packageimg
  • 程序员考试必备资料

    2024年11月9日   

    介绍:本资料包汇集了程序员考试的核心备考内容,涵盖了从考试大纲、考试教程到历年真题和经典试题的全方位资料。通过本资料包,你将获取详尽的考试说明、同步辅导教材以及模拟试题,帮助你高效备考,轻松应对考试,快速提升通过率。 包含内容:考试大纲与说明:帮助你清晰了解考试范围与重点。...
    packageimg
  • OCNLI中文自然语言训练数据集

    2024年11月10日   

    OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库,紧密按照MNLI的程序收集,但具有增强的策略,旨在实现更具挑战性的推理对。我们想强调的是,我们在创建数据集时没有使用人机翻译,因此我们的中文文本是原创的,没有翻译。
    packageimg
  • 党务问答文本数据集

    2024年11月10日   

    党务问答数据,来自 https://wenda.12371.cn/liebiao.php 共有157,350条对话数据。
    packageimg
  • 高校调查问卷文本数据集

    2024年11月10日   

    高校学子在填写志愿时对目标高校校园生活往往并不了解,此项目志在帮助各学子通过在校学长学姐的亲身体验经验提前了解校园生活的方方面面。该数据是经过大模型处理过的数据,可以直接用于训练AI模型或用于RAG的数据集
    packageimg
  • GeoQA (Geometric Question Answering)

    2024年11月10日   

    GeoQA 是一个用于自动解决几何问题的数据集,包含 5,010 个几何问题和相应的注释程序,说明了给定问题的解决过程 与另一个公开可用的数据集 GeoS 相比,GeoQA 大 25 倍,其中程序注释可以提供实用的未来研究明确和可解释的数值推理的测试平台。
    packageimg
  • DRCD (Delta Reading Comprehension Dataset)

    2024年11月10日   

    一个数据集,其中包含 2,221 个来自不同学科(历史、生物学、地理和哲学)的十二年级入学考试的问题,以及来自历史在线测验的 412 个附加问题。
    packageimg
  • Douban Conversation Corpus豆瓣会话语料库

    2024年11月10日   

    豆瓣会话语料库,这是第一个用于基于检索的聊天机器人的人工标记测试集。
    packageimg
  • 疾病分类与代码国家临床版2.0

    2024年11月10日   

    此数据不仅可作为疾病与死因分类的培训教材,也是指导广大卫生统计人员、病案人员、医务工作者、信息技术人员和管理人员正确理解和使用新的国家标准的工具书和参考书;对提高我国疾病分类水平,提升统计数据质量,规范医疗服务管理,促进统计和信息化建设都将发挥十分重要的作用。
    packageimg