找到2,381个数据集

标签: 数据清洗实践

过滤结果
  • Nazario Phishing Email Corpus

    2025年8月20日   

    真实钓鱼邮件与正常企业邮件
    packageimg
  • 个人身份信息数据集

    2025年8月19日   

    个人身份信息数据集_Personal_Identity_Information_Dataset 数据来源:互联网公开数据 标签:个人信息, 身份识别, 数据隐私, 人口统计, 数据清洗, 机器学习, 用户画像, 文本分析 数据概述: 该数据集包含个人身份信息,记录了多位个人的详细资料。主要特征如下:...
    packageimg
  • 服务器访问日志数据集(2017-2023)

    2025年8月18日   

    包含全球多个网站的访问日志数据,记录用户访问网站的时间、IP地址、浏览器类型、访问页面等信息。 适用于大数据架构与计算课程,通过Hadoop和Spark平台进行日志数据的处理与分析,学习如何使用分布式计算框架进行日志清洗、数据转换和分析,从中提取出用户行为模式和网站性能分析。
    packageimg
  • 人工智能强化学习模型训练问答数据集

    2025年8月18日   

    人工智能强化学习模型训练问答数据集_Artificial_Intelligence_Reinforcement_Learning_Model_Training_QA_Dataset 数据来源:互联网公开数据 标签:强化学习, 自然语言处理, 问答系统, 模型训练, 文本生成, 数据集, 对抗训练, 奖励模型 数据概述:...
    packageimg
  • 泰语问答数据集

    2025年8月2日   

    泰语问答数据集_Thai_Question_Answering_Dataset 数据来源:互联网公开数据 标签:泰语, 问答系统, 自然语言处理, 文本理解, 机器阅读理解, 泰语NLP, 数据集, 文本分析 数据概述: 该数据集包含来自多个来源的泰语问答数据,旨在促进泰语自然语言处理(NLP)领域的研究和应用。主要特征如下:...
    packageimg
  • 在线评论毒性分类数据集

    2025年7月30日   

    在线评论毒性分类数据集_Online_Comment_Toxicity_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 自然语言处理, 机器学习, 评论过滤, 多标签分类, 深度学习 数据概述:...
    packageimg
  • 图像分类噪声标签数据集

    2025年7月29日   

    图像分类噪声标签数据集_Image_Classification_Noisy_Label_Dataset 数据来源:互联网公开数据 标签:图像识别,噪声标签,CIFAR-10,CIFAR-100,标签噪声,深度学习,数据集,机器学习 数据概述:...
    packageimg
  • Transformer模型序列数据验证与测试数据集

    2025年7月27日   

    Transformer模型序列数据验证与测试数据集_Transformer_Model_Sequence_Data_Validation_and_Testing_Dataset 数据来源:互联网公开数据 标签:Transformer, 序列数据, 验证集, 测试集, 机器学习, 自然语言处理, 模型评估, 数据预处理 数据概述:...
    packageimg
  • 文本标点符号校正数据集

    2025年7月26日   

    文本标点符号校正数据集_Text_Punctuation_Correction_Dataset 数据来源:互联网公开数据 标签:文本处理, 自然语言处理, 标点符号, 文本校正, 数据标注, 机器学习, 语料库, 文本分析 数据概述: 该数据集包含来自公开文本的数据,记录了用于文本标点符号校正的语料。主要特征如下:...
    packageimg
  • 商品描述异常值检测数据集

    2025年7月22日   

    商品描述异常值检测数据集_Product_Description_Outlier_Detection_Dataset 数据来源:互联网公开数据 标签:异常值检测, 商品描述, 文本分析, 机器学习, 数据清洗, 零售, 文本挖掘, 数据预处理 数据概述:...
    packageimg
  • 医学文本信息抽取评估数据集

    2025年7月22日   

    医学文本信息抽取评估数据集_Medical_Text_Information_Extraction_Evaluation_Dataset 数据来源:互联网公开数据 标签:医学文本, 信息抽取, 命名实体识别, 关系抽取, 评估数据集, 深度学习, 自然语言处理, 文本标注 数据概述:...
    packageimg
  • 音频文件重命名元数据映射数据集

    2025年7月19日   

    音频文件重命名元数据映射数据集_Audio_File_Renaming_Metadata_Mapping 数据来源:互联网公开数据 标签:音频处理, 文件管理, 元数据, 映射关系, 数据清洗, 批量重命名, 文本分析, 数据集 数据概述: 该数据集包含音频文件重命名过程中产生的元数据映射关系,记录了原始文件名与其对应的新文件名。主要特征如下:...
    packageimg
  • 代码翻译与等价性验证数据集

    2025年7月16日   

    代码翻译与等价性验证数据集_Code_Translation_and_Equivalence_Validation_Dataset 数据来源:互联网公开数据 标签:代码翻译, 软件工程, 自然语言处理, 机器学习, 代码生成, Java, Python, 代码相似性 数据概述:...
    packageimg
  • 人脸图像分类数据集

    2025年6月1日   

    人脸图像分类数据集 数据来源:互联网公开数据 标签:人脸图像,真实与伪造,深度学习,计算机视觉,图像分类,数据清洗,模型训练 数据概述:...
    packageimg
  • 特征工程模型训练数据集

    2025年7月15日   

    特征工程模型训练数据集_Feature_Engineering_Model_Training_Dataset 数据来源:互联网公开数据 标签:特征工程, 机器学习, 数据建模, 预测分析, 模型训练, 数据集, 变量, 时序分析 数据概述: 该数据集包含多个CSV文件,记录了用于训练特征工程模型的数值型数据。主要特征如下:...
    packageimg
  • 乌尔都语社交媒体评论毒性分析数据集

    2025年7月10日   

    乌尔都语社交媒体评论毒性分析数据集_Urdu_Social_Media_Comments_Toxicity_Analysis 数据来源:互联网公开数据 标签:毒性分析, 文本分类, 乌尔都语, 社交媒体, 情感分析, 机器学习, 自然语言处理, 语料库 数据概述: 该数据集包含来自社交媒体平台的乌尔都语评论,记录了评论文本及其毒性标签。主要特征如下:...
    packageimg
  • 特征工程数据融合数据集

    2025年7月8日   

    特征工程数据融合数据集_Feature_Engineering_Data_Blending 数据来源:互联网公开数据 标签:特征工程, 数据融合, 机器学习, 数据集, 预测模型, 变量, 缺失值处理, 数据分析 数据概述: 该数据集包含经过特征工程处理和数据融合后的数值型数据,用于构建预测模型。主要特征如下:...
    packageimg
  • 文本生成风格与真实性判别数据集

    2025年7月7日   

    文本生成风格与真实性判别数据集_Text_Generation_Style_and_Authenticity_Detection_Dataset 数据来源:互联网公开数据 标签:文本生成, 风格分析, 真实性判别, 机器生成文本, 自然语言处理, 文本分类, 深度学习, 数据标注 数据概述:...
    packageimg
  • 孟加拉语文本标点纠正预测数据集

    2025年7月7日   

    孟加拉语文本标点纠正预测数据集_Bangla_Text_Punctuation_Correction_Prediction_Dataset 数据来源:互联网公开数据 标签:自然语言处理, 文本纠错, 标点符号, 机器学习, 文本生成, 序列标注, 语言模型, 孟加拉语 数据概述:...
    packageimg
  • 相机使用手册生成文本真伪检测数据集

    2025年7月7日   

    相机使用手册生成文本真伪检测数据集_Camera_Manual_Text_Generation_Verification 数据来源:互联网公开数据 标签:文本生成, 自然语言处理, 机器翻译, 文本分类, 真伪检测, 对抗样本, 数据清洗, 深度学习 数据概述: 该数据集包含相机用户手册相关文本,记录了原始文本及其对应的生成文本。主要特征如下:...
    packageimg