-
-
个人身份信息数据集
个人身份信息数据集_Personal_Identity_Information_Dataset 数据来源:互联网公开数据 标签:个人信息, 身份识别, 数据隐私, 人口统计, 数据清洗, 机器学习, 用户画像, 文本分析 数据概述: 该数据集包含个人身份信息,记录了多位个人的详细资料。主要特征如下:...
-
服务器访问日志数据集(2017-2023)
包含全球多个网站的访问日志数据,记录用户访问网站的时间、IP地址、浏览器类型、访问页面等信息。 适用于大数据架构与计算课程,通过Hadoop和Spark平台进行日志数据的处理与分析,学习如何使用分布式计算框架进行日志清洗、数据转换和分析,从中提取出用户行为模式和网站性能分析。
-
人工智能强化学习模型训练问答数据集
人工智能强化学习模型训练问答数据集_Artificial_Intelligence_Reinforcement_Learning_Model_Training_QA_Dataset 数据来源:互联网公开数据 标签:强化学习, 自然语言处理, 问答系统, 模型训练, 文本生成, 数据集, 对抗训练, 奖励模型 数据概述:...
-
在线评论毒性分类数据集
在线评论毒性分类数据集_Online_Comment_Toxicity_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 自然语言处理, 机器学习, 评论过滤, 多标签分类, 深度学习 数据概述:...
-
图像分类噪声标签数据集
图像分类噪声标签数据集_Image_Classification_Noisy_Label_Dataset 数据来源:互联网公开数据 标签:图像识别,噪声标签,CIFAR-10,CIFAR-100,标签噪声,深度学习,数据集,机器学习 数据概述:...
-
Transformer模型序列数据验证与测试数据集
Transformer模型序列数据验证与测试数据集_Transformer_Model_Sequence_Data_Validation_and_Testing_Dataset 数据来源:互联网公开数据 标签:Transformer, 序列数据, 验证集, 测试集, 机器学习, 自然语言处理, 模型评估, 数据预处理 数据概述:...
-
文本标点符号校正数据集
文本标点符号校正数据集_Text_Punctuation_Correction_Dataset 数据来源:互联网公开数据 标签:文本处理, 自然语言处理, 标点符号, 文本校正, 数据标注, 机器学习, 语料库, 文本分析 数据概述: 该数据集包含来自公开文本的数据,记录了用于文本标点符号校正的语料。主要特征如下:...
-
商品描述异常值检测数据集
商品描述异常值检测数据集_Product_Description_Outlier_Detection_Dataset 数据来源:互联网公开数据 标签:异常值检测, 商品描述, 文本分析, 机器学习, 数据清洗, 零售, 文本挖掘, 数据预处理 数据概述:...
-
医学文本信息抽取评估数据集
医学文本信息抽取评估数据集_Medical_Text_Information_Extraction_Evaluation_Dataset 数据来源:互联网公开数据 标签:医学文本, 信息抽取, 命名实体识别, 关系抽取, 评估数据集, 深度学习, 自然语言处理, 文本标注 数据概述:...
-
音频文件重命名元数据映射数据集
音频文件重命名元数据映射数据集_Audio_File_Renaming_Metadata_Mapping 数据来源:互联网公开数据 标签:音频处理, 文件管理, 元数据, 映射关系, 数据清洗, 批量重命名, 文本分析, 数据集 数据概述: 该数据集包含音频文件重命名过程中产生的元数据映射关系,记录了原始文件名与其对应的新文件名。主要特征如下:...
-
代码翻译与等价性验证数据集
代码翻译与等价性验证数据集_Code_Translation_and_Equivalence_Validation_Dataset 数据来源:互联网公开数据 标签:代码翻译, 软件工程, 自然语言处理, 机器学习, 代码生成, Java, Python, 代码相似性 数据概述:...
-
特征工程模型训练数据集
特征工程模型训练数据集_Feature_Engineering_Model_Training_Dataset 数据来源:互联网公开数据 标签:特征工程, 机器学习, 数据建模, 预测分析, 模型训练, 数据集, 变量, 时序分析 数据概述: 该数据集包含多个CSV文件,记录了用于训练特征工程模型的数值型数据。主要特征如下:...
-
乌尔都语社交媒体评论毒性分析数据集
乌尔都语社交媒体评论毒性分析数据集_Urdu_Social_Media_Comments_Toxicity_Analysis 数据来源:互联网公开数据 标签:毒性分析, 文本分类, 乌尔都语, 社交媒体, 情感分析, 机器学习, 自然语言处理, 语料库 数据概述: 该数据集包含来自社交媒体平台的乌尔都语评论,记录了评论文本及其毒性标签。主要特征如下:...
-
特征工程数据融合数据集
特征工程数据融合数据集_Feature_Engineering_Data_Blending 数据来源:互联网公开数据 标签:特征工程, 数据融合, 机器学习, 数据集, 预测模型, 变量, 缺失值处理, 数据分析 数据概述: 该数据集包含经过特征工程处理和数据融合后的数值型数据,用于构建预测模型。主要特征如下:...
-
文本生成风格与真实性判别数据集
文本生成风格与真实性判别数据集_Text_Generation_Style_and_Authenticity_Detection_Dataset 数据来源:互联网公开数据 标签:文本生成, 风格分析, 真实性判别, 机器生成文本, 自然语言处理, 文本分类, 深度学习, 数据标注 数据概述:...
-
孟加拉语文本标点纠正预测数据集
孟加拉语文本标点纠正预测数据集_Bangla_Text_Punctuation_Correction_Prediction_Dataset 数据来源:互联网公开数据 标签:自然语言处理, 文本纠错, 标点符号, 机器学习, 文本生成, 序列标注, 语言模型, 孟加拉语 数据概述:...
-
相机使用手册生成文本真伪检测数据集
相机使用手册生成文本真伪检测数据集_Camera_Manual_Text_Generation_Verification 数据来源:互联网公开数据 标签:文本生成, 自然语言处理, 机器翻译, 文本分类, 真伪检测, 对抗样本, 数据清洗, 深度学习 数据概述: 该数据集包含相机用户手册相关文本,记录了原始文本及其对应的生成文本。主要特征如下:...



