数据集 - 海数据

Nazario Phishing Email Corpus

2025年8月20日

真实钓鱼邮件与正常企业邮件

csv

个人身份信息数据集

2025年8月19日

个人身份信息数据集_Personal_Identity_Information_Dataset 数据来源：互联网公开数据标签：个人信息, 身份识别, 数据隐私, 人口统计, 数据清洗, 机器学习, 用户画像, 文本分析数据概述：该数据集包含个人身份信息，记录了多位个人的详细资料。主要特征如下：...

ZIP

服务器访问日志数据集（2017-2023）

2025年8月18日

包含全球多个网站的访问日志数据，记录用户访问网站的时间、IP地址、浏览器类型、访问页面等信息。适用于大数据架构与计算课程，通过Hadoop和Spark平台进行日志数据的处理与分析，学习如何使用分布式计算框架进行日志清洗、数据转换和分析，从中提取出用户行为模式和网站性能分析。

zip

人工智能强化学习模型训练问答数据集

2025年8月18日

人工智能强化学习模型训练问答数据集_Artificial_Intelligence_Reinforcement_Learning_Model_Training_QA_Dataset 数据来源：互联网公开数据标签：强化学习, 自然语言处理, 问答系统, 模型训练, 文本生成, 数据集, 对抗训练, 奖励模型数据概述：...

ZIP

泰语问答数据集

2025年8月2日

泰语问答数据集_Thai_Question_Answering_Dataset 数据来源：互联网公开数据标签：泰语, 问答系统, 自然语言处理, 文本理解, 机器阅读理解, 泰语NLP, 数据集, 文本分析数据概述：该数据集包含来自多个来源的泰语问答数据，旨在促进泰语自然语言处理（NLP）领域的研究和应用。主要特征如下：...

ZIP

在线评论毒性分类数据集

2025年7月30日

在线评论毒性分类数据集_Online_Comment_Toxicity_Classification_Dataset 数据来源：互联网公开数据标签：文本分类, 毒性检测, 情感分析, 自然语言处理, 机器学习, 评论过滤, 多标签分类, 深度学习数据概述：...

ZIP

图像分类噪声标签数据集

2025年7月29日

图像分类噪声标签数据集_Image_Classification_Noisy_Label_Dataset 数据来源：互联网公开数据标签：图像识别，噪声标签，CIFAR-10，CIFAR-100，标签噪声，深度学习，数据集，机器学习数据概述：...

ZIP

Transformer模型序列数据验证与测试数据集

2025年7月27日

Transformer模型序列数据验证与测试数据集_Transformer_Model_Sequence_Data_Validation_and_Testing_Dataset 数据来源：互联网公开数据标签：Transformer, 序列数据, 验证集, 测试集, 机器学习, 自然语言处理, 模型评估, 数据预处理数据概述：...

ZIP

文本标点符号校正数据集

2025年7月26日

文本标点符号校正数据集_Text_Punctuation_Correction_Dataset 数据来源：互联网公开数据标签：文本处理, 自然语言处理, 标点符号, 文本校正, 数据标注, 机器学习, 语料库, 文本分析数据概述：该数据集包含来自公开文本的数据，记录了用于文本标点符号校正的语料。主要特征如下：...

ZIP

商品描述异常值检测数据集

2025年7月22日

商品描述异常值检测数据集_Product_Description_Outlier_Detection_Dataset 数据来源：互联网公开数据标签：异常值检测, 商品描述, 文本分析, 机器学习, 数据清洗, 零售, 文本挖掘, 数据预处理数据概述：...

ZIP

医学文本信息抽取评估数据集

2025年7月22日

医学文本信息抽取评估数据集_Medical_Text_Information_Extraction_Evaluation_Dataset 数据来源：互联网公开数据标签：医学文本, 信息抽取, 命名实体识别, 关系抽取, 评估数据集, 深度学习, 自然语言处理, 文本标注数据概述：...

ZIP

音频文件重命名元数据映射数据集

2025年7月19日

音频文件重命名元数据映射数据集_Audio_File_Renaming_Metadata_Mapping 数据来源：互联网公开数据标签：音频处理, 文件管理, 元数据, 映射关系, 数据清洗, 批量重命名, 文本分析, 数据集数据概述：该数据集包含音频文件重命名过程中产生的元数据映射关系，记录了原始文件名与其对应的新文件名。主要特征如下：...

ZIP

代码翻译与等价性验证数据集

2025年7月16日

代码翻译与等价性验证数据集_Code_Translation_and_Equivalence_Validation_Dataset 数据来源：互联网公开数据标签：代码翻译, 软件工程, 自然语言处理, 机器学习, 代码生成, Java, Python, 代码相似性数据概述：...

ZIP

人脸图像分类数据集

2025年6月1日

人脸图像分类数据集数据来源：互联网公开数据标签：人脸图像,真实与伪造,深度学习,计算机视觉,图像分类,数据清洗,模型训练数据概述：...

ZIP

特征工程模型训练数据集

2025年7月15日

特征工程模型训练数据集_Feature_Engineering_Model_Training_Dataset 数据来源：互联网公开数据标签：特征工程, 机器学习, 数据建模, 预测分析, 模型训练, 数据集, 变量, 时序分析数据概述：该数据集包含多个CSV文件，记录了用于训练特征工程模型的数值型数据。主要特征如下：...

ZIP

乌尔都语社交媒体评论毒性分析数据集

2025年7月10日

乌尔都语社交媒体评论毒性分析数据集_Urdu_Social_Media_Comments_Toxicity_Analysis 数据来源：互联网公开数据标签：毒性分析, 文本分类, 乌尔都语, 社交媒体, 情感分析, 机器学习, 自然语言处理, 语料库数据概述：该数据集包含来自社交媒体平台的乌尔都语评论，记录了评论文本及其毒性标签。主要特征如下：...

ZIP

特征工程数据融合数据集

2025年7月8日

特征工程数据融合数据集_Feature_Engineering_Data_Blending 数据来源：互联网公开数据标签：特征工程, 数据融合, 机器学习, 数据集, 预测模型, 变量, 缺失值处理, 数据分析数据概述：该数据集包含经过特征工程处理和数据融合后的数值型数据，用于构建预测模型。主要特征如下：...

ZIP

文本生成风格与真实性判别数据集

2025年7月7日

文本生成风格与真实性判别数据集_Text_Generation_Style_and_Authenticity_Detection_Dataset 数据来源：互联网公开数据标签：文本生成, 风格分析, 真实性判别, 机器生成文本, 自然语言处理, 文本分类, 深度学习, 数据标注数据概述：...

ZIP

孟加拉语文本标点纠正预测数据集

2025年7月7日

孟加拉语文本标点纠正预测数据集_Bangla_Text_Punctuation_Correction_Prediction_Dataset 数据来源：互联网公开数据标签：自然语言处理, 文本纠错, 标点符号, 机器学习, 文本生成, 序列标注, 语言模型, 孟加拉语数据概述：...

ZIP

相机使用手册生成文本真伪检测数据集

2025年7月7日

相机使用手册生成文本真伪检测数据集_Camera_Manual_Text_Generation_Verification 数据来源：互联网公开数据标签：文本生成, 自然语言处理, 机器翻译, 文本分类, 真伪检测, 对抗样本, 数据清洗, 深度学习数据概述：该数据集包含相机用户手册相关文本，记录了原始文本及其对应的生成文本。主要特征如下：...

ZIP

找到2,381个数据集

注册成功！