数据集 - 海数据

恩尼翁2006年电子邮件垃圾邮件与正常邮件分类数据集

2025年4月20日

恩尼翁2006年电子邮件垃圾邮件与正常邮件分类数据集数据来源：互联网公开数据标签：电子邮件,垃圾邮件分类,正常邮件,文本处理,数据预处理,机器学习,文本分析数据概述：...

ZIP

Cdiscount商品图像分类训练集元数据分割数据集

2025年4月20日

Cdiscount商品图像分类训练集元数据分割数据集数据来源：互联网公开数据标签：Cdiscount,商品图像,分类,元数据,训练集,测试集,图像识别,数据集数据概述：...

ZIP

多语言情感分析数据集

2025年4月19日

多语言情感分析数据集数据来源：互联网公开数据标签：情感分析,自然语言处理,多语言模型,文本分类,LLM生成,数据清洗数据概述：...

ZIP

机器学习流程数据集

2025年4月19日

机器学习流程数据集数据来源：互联网公开数据标签：机器学习, 数据处理, 特征工程, 模型构建, 模型评估, 数据预处理, 分类, 回归, 异常值处理, 特征选择数据概述：...

ZIP

印度银行客户贷款数据集2021

2025年4月19日

印度银行客户贷款数据集2021 数据来源：互联网公开数据标签：银行贷款,印度,客户信息,信用评分,贷款类型,收入水平,社会联系,信用查询数据概述：...

ZIP

竞赛加速-教育数据个人身份信息PII检测与移除Top500数据集

2025年4月19日

竞赛加速-教育数据个人身份信息PII检测与移除Top500数据集数据来源：互联网公开数据标签：PII检测,教育数据,竞赛,机器学习,数据加速,模型训练,Kaggle 数据概述：本数据集“Top...

ZIP

验证数据集

2025年4月19日

验证数据集数据来源：互联网公开数据标签：验证数据, 数据质量, 数据完整性, 数据清洗, 数据分析, 数据验证, 机器学习数据概述：...

ZIP

信用卡交易欺诈检测模拟数据集-交易记录-时间序列-2017年

2025年4月19日

信用卡交易欺诈检测模拟数据集-交易记录-时间序列-2017年数据来源：互联网公开数据标签：信用卡,交易,欺诈检测,机器学习,时间序列,金融,风险管理,模拟数据数据概述：本数据集是基于"可复现的机器学习信用卡欺诈检测-实践手册"（Reproducible Machine Learning for Credit Card Fraud...

ZIP

自然语言处理数据集-缩略语与表情符号

2025年4月18日

自然语言处理数据集-缩略语与表情符号数据来源：互联网公开数据标签：自然语言处理,文本预处理,缩略语,标点符号,表情符号,情感分析,数据清洗,文本挖掘,NLP 数据概述：本数据集为自然语言处理（NLP）和文本挖掘任务提供了丰富的资源支持，包含多个关键文件，用于文本预处理过程中的数据清洗和特征提取。数据集主要组成部分包括：...

ZIP

耶鲁大学SParC数据集-上下文语义解析数据集

2025年4月19日

耶鲁大学SParC数据集-上下文语义解析数据集数据来源：互联网公开数据标签：自然语言处理,语义解析,文本转SQL,数据集,上下文理解,数据库,机器学习,人工智能数据概述： SParC（Semantic Parsing in...

ZIP

细菌分类竞赛训练集含测量误差数据集-2022年2月

2025年4月19日

细菌分类竞赛训练集含测量误差数据集-2022年2月数据来源：互联网公开数据标签：细菌分类,机器学习,竞赛数据,测量误差,生物医学,数据分析,时间序列数据概述：本数据集是为2022年2月举办的Kaggle“TPS(Tabular Playground Series) Feb...

ZIP

预处理企业财务风险数据集

2025年4月19日

预处理企业财务风险数据集数据来源：互联网公开数据标签：企业财务,风险评估,预处理数据,特征缩放,缺失值处理,杠杆率,违约风险数据概述：本数据集包含超过75个财务特征，涵盖了企业的关键财务指标，例如销售额、息税前利润（PBDIT）、净利润（PAT）、总资产等。这些特征经过Min-...

ZIP

UNSW-NB15网络流量数据集

2025年4月19日

UNSW-NB15网络流量数据集数据来源：互联网公开数据标签：DDoS攻击,网络流量,网络安全,机器学习,特征工程,威胁检测,攻击分类数据概述：本数据集（UNSW-NB15）由澳大利亚网络空间安全中心（ACCS）与全球研究人员合作创建，旨在解决传统数据集无法准确反映现代网络威胁环境的局限性。数据集通过IXIA...

ZIP

对抗性自然语言推理ANLI数据集

2025年4月19日

对抗性自然语言推理ANLI数据集数据来源：互联网公开数据标签：自然语言推理, 对抗性测试, 语言理解, 机器学习, 基准数据集, 文本推理, 深度学习数据概述： ANLI（Adversarial Natural Language...

ZIP

特征选择比赛数据集

2025年4月19日

特征选择比赛数据集数据来源：互联网公开数据标签：特征选择,机器学习,分类模型,竞赛数据,高维数据,降维,数据理解,数据清洗数据概述：本数据集源于COMSYS...

ZIP

AI生成与人类写作检测数据集

2025年4月19日

AI生成与人类写作检测数据集数据来源：互联网公开数据标签：AI生成文本,人类写作,文本分类,自然语言处理,NLP,机器学习,生成式AI,数据集数据概述...

ZIP

写作过程与质量分析数据集

2025年4月19日

写作过程与质量分析数据集数据来源：互联网公开数据标签：文本处理,内存优化,写作质量,特征工程,数据预处理,机器学习,数据分析数据概述：...

ZIP

孟加拉语命名实体识别数据集B-NER2023年

2025年4月18日

孟加拉语命名实体识别数据集B-NER2023年数据来源：互联网公开数据标签：孟加拉语,命名实体识别,自然语言处理,数据集,基础评估,学术研究数据概述：本数据集B-NER收录了大量孟加拉语文本中的命名实体，涵盖了人名、地名、组织名等类别，是目前最大的孟加拉语命名实体数据集。数据集经过精心标注，为孟加拉语自然语言处理研究提供了坚实的基础。...