数据集 - 海数据

印地语文本重复检测数据集Paraphrasedetection-hindiDataset-quicklearner

2025年5月28日

印地语文本重复检测数据集Paraphrasedetection-hindiDataset-quicklearner 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，机器学习，重复检测，语言技术，印地语，文本相似度数据概述：该数据集包含印地语文本的重复检测数据，记录了印地语文本中的重复或改写文本对。主要特征如下：...

ZIP

机器学习交叉验证分组数据集30-d-ml-foldsDataset-kholodkandeel

2025年5月28日

机器学习交叉验证分组数据集30-d-ml-foldsDataset-kholodkandeel 数据来源：互联网公开数据标签：机器学习，交叉验证，数据集，数据分割，分组，数据分析，算法验证，模型评估数据概述：该数据集包含用于机器学习模型训练和验证的分组数据分割方案，主要应用于交叉验证任务。主要特征如下：...

ZIP

大规模语言模型训练数据集MasterModelData-stillcler

2025年5月28日

大规模语言模型训练数据集MasterModelData-stillcler 数据来源：互联网公开数据标签：自然语言处理，大规模语言模型，数据集，文本数据，机器学习，深度学习，预训练，数据清洗数据概述：该数据集包含用于训练大规模语言模型的海量文本数据，涵盖多种来源和语言。主要特征如下：时间跨度：...

ZIP

自定义特征预处理数据集PreprocessedwithCustomFeaturesDataset-shuvayanpal

2025年5月28日

自定义特征预处理数据集PreprocessedwithCustomFeaturesDataset-shuvayanpal 数据来源：互联网公开数据标签：特征工程，数据预处理，机器学习，数据分析，数据挖掘，预测建模，统计学习，人工智能数据概述：该数据集包含经过预处理并添加自定义特征的数据，适用于机器学习模型训练和数据分析任务。主要特征如下：...

ZIP

文本分类特征工程数据集TextClassificationFeatureEngineeringDataset-a0049228b

2025年5月28日

文本分类特征工程数据集TextClassificationFeatureEngineeringDataset-a0049228b 数据来源：互联网公开数据标签：文本分类, 特征工程, 自然语言处理, 文本特征, 机器学习, 情感分析, 词性标注, 数据预处理数据概述：该数据集包含经过特征工程处理的文本数据，用于文本分类任务。主要特征如下：...

ZIP

命名实体识别标注数据集NamedEntityRecognitionAnnotationDataset-haris77ramlee

2025年5月28日

命名实体识别标注数据集NamedEntityRecognitionAnnotationDataset-haris77ramlee 数据来源：互联网公开数据标签：命名实体识别, 自然语言处理, 文本标注, 序列标注, 机器学习, 实体识别, 语料库, 标注数据数据概述：...

ZIP

Transformer模型代码修复数据集TransformerModelCodeFixDataset-pavel92

2025年5月28日

Transformer模型代码修复数据集TransformerModelCodeFixDataset-pavel92 数据来源：互联网公开数据标签：Transformer，代码修复，数据集，自然语言处理，机器学习，代码生成，软件工程，编程数据概述：...

ZIP

机器学习模型训练数据集-特征向量与标签MachineLearningModelTrainingDataset-FeatureVectorsandLabels-og2001

2025年5月28日

机器学习模型训练数据集-特征向量与标签MachineLearningModelTrainingDataset-FeatureVectorsandLabels-og2001 数据来源：互联网公开数据标签：机器学习, 特征向量, 模型训练, 文本分类, 数据集, 深度学习, 向量化, 数据预处理数据概述：...

ZIP

一致性数据集ConsistencyCSVDataset-saypal

2025年5月28日

一致性数据集ConsistencyCSVDataset-saypal 数据来源：互联网公开数据标签：数据集，一致性检查，数据清洗，数据处理，数据分析，质量管理，机器学习，数据验证数据概述：该数据集包含用于一致性检查的数据，记录了多个数据源或系统中的数据匹配和验证情况。主要特征如下：时间跨度：数据记录的时间范围从2019年到2022年。...

ZIP

输入数据集集合InputDatasetsCollection-arpitajena

2025年5月28日

输入数据集集合InputDatasetsCollection-arpitajena 数据来源：互联网公开数据标签：数据集，输入数据，数据处理，机器学习，数据分析，数据科学，数据整合，数据管理数据概述：该数据集包含来自多个来源的输入数据集合，记录了不同场景下的原始数据或预处理数据。主要特征如下：...

ZIP

Tufano代码修复模型数据集Tufano代码修复模型数据集-zheungyik

2025年5月28日

Tufano代码修复模型数据集Tufano代码修复模型数据集-zheungyik 数据来源：互联网公开数据标签：代码修复，数据集，软件工程，机器学习，编程，源代码，错误修复，代码优化数据概述：该数据集包含用于代码修复任务的数据，主要记录了不同编程语言中的错误代码及其修复后的正确代码。主要特征如下：...

ZIP

修正后的数据分析数据集-dennislandman99

2025年5月28日

修正后的数据分析数据集-dennislandman99 数据来源：互联网公开数据标签：数据清洗，缺失值处理，异常值检测，数据修正，数据分析，机器学习，数据质量，统计分析数据概述：该数据集包含了经过修正的数据，旨在用于数据分析、机器学习和数据质量评估。主要特征如下：时间跨度：数据记录的时间范围不限，取决于原始数据集的时间范围。...

ZIP

二次测试数据集SecondTestDataset-amraboelkhair

2025年5月28日

二次测试数据集SecondTestDataset-amraboelkhair 数据来源：互联网公开数据标签：测试数据，数据处理，数据验证，机器学习，算法验证，基准测试，数据分析，技术评估数据概述：该数据集包含用于二次测试的数据记录，主要用于算法验证、模型评估和数据处理流程的测试。主要特征如下：...

ZIP

数据预处理阶段数据分析数据集-chuquangcan

2025年5月28日

数据预处理阶段数据分析数据集-chuquangcan 数据来源：互联网公开数据标签：数据预处理，数据分析，数据集，数据清洗，缺失值处理，异常值检测，数据转换，数据质量评估数据概述：该数据集包含用于演示和练习数据预处理流程的模拟数据，记录了不同类型和质量的数据。主要特征如下：时间跨度：数据模拟，不涉及具体的时间范围。...

ZIP

互联网电影数据库IMDB噪声数据研究数据集-amitlakhi

2025年5月28日

互联网电影数据库IMDB噪声数据研究数据集-amitlakhi 数据来源：互联网公开数据标签：电影，数据集，文本分析，自然语言处理，情感分析，机器学习，噪声数据，IMDB 数据概述：该数据集包含来自互联网电影数据库（IMDB）的电影评论数据，其中包含噪声数据，用于研究噪声对文本分析的影响。主要特征如下：...

ZIP

数据预处理测试数据集One-Hot编码测试数据集-cbskcjbsocb

2025年5月28日

数据预处理测试数据集One-Hot编码测试数据集-cbskcjbsocb 数据来源：互联网公开数据标签：数据预处理，数据集，机器学习，数据清洗，特征工程，编码技术，测试数据，数据分析数据概述：该数据集用于数据预处理测试，特别是针对One-Hot编码技术的应用和验证。主要特征如下：时间跨度：数据记录的时间范围为测试数据集创建时。...

ZIP

波斯语文本改写数据集PersianParaphraseDataset-armannikkhah

2025年5月28日

波斯语文本改写数据集PersianParaphraseDataset-armannikkhah 数据来源：互联网公开数据标签：自然语言处理，文本改写，机器翻译，语言模型，多语言数据集，机器学习，语义分析，人工智能数据概述：该数据集包含来自波斯语领域的文本改写数据，记录了波斯语文本的改写和翻译对。主要特征如下：...

ZIP

单热编码未翻译文本数据集-franciscomisa

2025年5月28日

单热编码未翻译文本数据集-franciscomisa 数据来源：互联网公开数据标签：文本数据，单热编码，机器学习，自然语言处理，数据预处理，文本分类，数据分析，中文数据概述：该数据集包含经过单热编码处理的未翻译文本数据，主要用于机器学习模型的训练和评估。主要特征如下：时间跨度：数据记录时间不限，为静态数据集。...

ZIP

支票图像识别数据集-medali1992

2025年5月28日

支票图像识别数据集-medali1992 数据来源：互联网公开数据标签：图像识别，支票，数据集，OCR，金融，机器学习，计算机视觉，银行数据概述：该数据集包含支票图像数据，用于支票图像识别和处理任务。主要特征如下：时间跨度：数据记录的时间范围不限。地理范围：数据覆盖范围不限。...

ZIP

火车大数据清洗数据集BigTrainCleanDataset-nicolaspellerin02

2025年5月28日

火车大数据清洗数据集BigTrainCleanDataset-nicolaspellerin02 数据来源：互联网公开数据标签：铁路，数据清洗，数据集，火车，机器学习，数据分析，交通运输，大数据数据概述：该数据集包含火车相关的数据，主要用于数据清洗和预处理，为后续的分析和建模提供高质量的数据基础。主要特征如下：...

ZIP

找到2,381个数据集

注册成功！