数据集 - 海数据

数字彼得序列到序列文本生成数据集DigitalPeterSeq2SeqTextGenerationDataset-vitalygladyshev

2025年5月16日

数字彼得序列到序列文本生成数据集DigitalPeterSeq2SeqTextGenerationDataset-vitalygladyshev 数据来源：互联网公开数据标签：序列到序列，文本生成，数据集，自然语言处理，深度学习，机器翻译，文本摘要，对话生成数据概述：...

ZIP

数据科学与机器学习实践数据集DataScienceandMachineLearningPracticeDatasets-gauravkumar15

2025年5月15日

数据科学与机器学习实践数据集DataScienceandMachineLearningPracticeDatasets-gauravkumar15 数据来源：互联网公开数据标签：机器学习, 数据科学, 实践, 案例, 数据集, 数据预处理, 特征工程, 模型训练数据概述：...

ZIP

文本情感分析特征工程数据集TextSentimentAnalysisFeatureEngineeringDataset-peggy2222

2025年5月15日

文本情感分析特征工程数据集TextSentimentAnalysisFeatureEngineeringDataset-peggy2222 数据来源：互联网公开数据标签：情感分析, 文本分类, 特征工程, 自然语言处理, 机器学习, 文本特征, 词嵌入, 数据预处理数据概述：...

ZIP

马拉雅拉姆语命名实体识别数据集MalayalamLanguageNamedEntityRecognitionDataset-rajumavinmar

2025年5月15日

马拉雅拉姆语命名实体识别数据集MalayalamLanguageNamedEntityRecognitionDataset-rajumavinmar 数据来源：互联网公开数据标签：命名实体识别, 自然语言处理, 马拉雅拉姆语, 文本标注, 语言学, 机器学习, 文本分析, 语料库数据概述：...

ZIP

泰卢固语词性标注数据集TeluguPart-of-SpeechTaggingDataset-icode100

2025年5月15日

泰卢固语词性标注数据集TeluguPart-of-SpeechTaggingDataset-icode100 数据来源：互联网公开数据标签：自然语言处理, 词性标注, 泰卢固语, 语言学, 文本分析, 数据标注, 机器学习, 语料库数据概述：该数据集包含泰卢固语文本，记录了每个词语及其对应的词性标签。主要特征如下：...

ZIP

英法双语翻译短语数据集English-FrenchBilingualTranslationPhrases-nibakh

2025年5月15日

英法双语翻译短语数据集English-FrenchBilingualTranslationPhrases-nibakh 数据来源：互联网公开数据标签：机器翻译, 语言学, 双语语料库, 文本数据, 自然语言处理, 翻译模型, 语言对, 语料分析数据概述：该数据集包含英法双语短语翻译数据，记录了英语短语及其对应的法语翻译。主要特征如下：...

ZIP

天气数据缺失值填充数据集WeatherDataImputation-ziedzjf

2025年5月15日

天气数据缺失值填充数据集WeatherDataImputation-ziedzjf 数据来源：互联网公开数据标签：天气数据, 数据缺失, 缺失值处理, 数据清洗, 时间序列分析, 气象分析, 数据补全, 预测模型数据概述：该数据集包含来自气象监测站的天气数据，记录了气象观测指标，但部分数据存在缺失。主要特征如下：...

ZIP

文本来源识别训练数据集TextSourceIdentificationTrainingDataset-athish12

2025年5月15日

文本来源识别训练数据集TextSourceIdentificationTrainingDataset-athish12 数据来源：互联网公开数据标签：文本分类, 自然语言处理, 机器学习, 文本来源, 机器生成文本, 人工撰写文本, 语料库, 数据标注数据概述：该数据集包含用于训练文本来源识别模型的文本数据，记录了文章的来源类型。主要特征如下：...

ZIP

训练集预处理后数据数据集TrainAfterPreprocessedDataset-ictworld

2025年5月15日

训练集预处理后数据数据集TrainAfterPreprocessedDataset-ictworld 数据来源：互联网公开数据标签：数据预处理，机器学习，数据集，数据清洗，特征工程，数据分析，数据挖掘，模型训练数据概述：该数据集包含经过预处理的训练数据，记录了用于机器学习模型训练的数据样本。主要特征如下：时间跨度：数据记录的时间范围未明确指定。...

ZIP

PythonBox库测试用例数据集PythonBoxLibraryTestingCases-kangchand

2025年5月15日

PythonBox库测试用例数据集PythonBoxLibraryTestingCases-kangchand 数据来源：互联网公开数据标签：Python, Box库, 测试数据, 软件测试, 数据集, JSON, CSV, 结构化数据数据概述：该数据集包含用于Python...

ZIP

信用卡欺诈检测数据集CreditCardFraudDetectionDataset-getachewgetuenyew

2025年5月15日

信用卡欺诈检测数据集CreditCardFraudDetectionDataset-getachewgetuenyew 数据来源：互联网公开数据标签：欺诈检测, 信用卡, 数据分析, 机器学习, 风险评估, 异常检测, 二分类, 数据清洗数据概述：...

ZIP

图像文本信息实体识别预测数据集ImageTextInformationEntityRecognitionPredictionDataset-kansalritu

2025年5月15日

图像文本信息实体识别预测数据集ImageTextInformationEntityRecognitionPredictionDataset-kansalritu 数据来源：互联网公开数据标签：实体识别，图像文本，预测，数据集，机器学习，计算机视觉，自然语言处理，数据标注数据概述：...

ZIP

生物医学图像伪标签数据集BMS-Pseudo-LabelDataset-gmhost

2025年5月14日

生物医学图像伪标签数据集BMS-Pseudo-LabelDataset-gmhost 数据来源：互联网公开数据标签：生物医学图像，伪标签，数据集，图像分割，深度学习，医学影像，数据增强，人工智能数据概述：该数据集包含生物医学图像，并结合了伪标签技术，用于图像分割任务。主要特征如下：时间跨度：数据集无明确时间范围，数据可能来源于不同时期。...

ZIP

企业名称信息数据集CompanyNameInformationDataset-visheshsuryavanshi

2025年5月14日

企业名称信息数据集CompanyNameInformationDataset-visheshsuryavanshi 数据来源：互联网公开数据标签：企业信息, 公司名称, 数据清洗, 文本分析, 商业数据, 实体识别, 机器学习, 信息提取数据概述：该数据集包含来自互联网的数据，记录了企业名称信息。主要特征如下：...

ZIP

英文命名实体识别数据集EnglishNamedEntityRecognitionDataset-ruanamxoai

2025年5月14日

英文命名实体识别数据集EnglishNamedEntityRecognitionDataset-ruanamxoai 数据来源：互联网公开数据标签：命名实体识别, 自然语言处理, 文本标注, 序列标注, 机器学习, 实体识别, 数据集, 语料库数据概述：...

ZIP

垃圾邮件分类文本数据集SpamClassificationTextDataset-shravan3273

2025年5月14日

垃圾邮件分类文本数据集SpamClassificationTextDataset-shravan3273 数据来源：互联网公开数据标签：垃圾邮件, 文本分类, 自然语言处理, 邮件分析, 机器学习, 情感分析, 数据标注, 信息安全数据概述：...

ZIP

线性回归模型预测数据集LinearRegressionModelPredictionDataset-deekshithaprabhakar

2025年5月14日

线性回归模型预测数据集LinearRegressionModelPredictionDataset-deekshithaprabhakar 数据来源：互联网公开数据标签：线性回归, 预测模型, 机器学习, 数据集, 回归分析, 特征工程, 数据建模, 预测数据概述：...

ZIP

医学文本数据去噪与词嵌入数据集MedicalTextDataDenoisingandWordEmbedding-vobachkhoi

2025年5月14日

医学文本数据去噪与词嵌入数据集MedicalTextDataDenoisingandWordEmbedding-vobachkhoi 数据来源：互联网公开数据标签：医学文本, 自然语言处理, 词嵌入, 数据去噪, 文本分析, 预训练模型, 临床记录, 数据清洗数据概述：...

ZIP

泰语文本纠错数据集ThaiTextCorrectionDataset-holydark30

2025年5月14日

泰语文本纠错数据集ThaiTextCorrectionDataset-holydark30 数据来源：互联网公开数据标签：泰语, 文本纠错, 自然语言处理, 机器翻译, 语言模型, 文本校对, 数据增强, 深度学习数据概述：该数据集包含泰语文本的原始文本（src）及其对应的纠正后文本（tgt），主要用于训练和评估泰语文本纠错模型。主要特征如下：...