数据集 - 海数据

语音转录文本时间戳数据集SpeechTranscriptionTimestampDataset-maniarunvenkateshp

2025年5月10日

语音转录文本时间戳数据集SpeechTranscriptionTimestampDataset-maniarunvenkateshp 数据来源：互联网公开数据标签：语音识别, 文本分析, 时间序列, 语音转录, 文本标注, 自然语言处理, 语料库, 文本校对数据概述：该数据集包含多个语音转录文本文件，记录了语音内容的时间戳信息。主要特征如下：...

ZIP

文本校对预测错误分析数据集TextCorrectionPredictionErrorAnalysis-takuok

2025年5月1日

文本校对预测错误分析数据集TextCorrectionPredictionErrorAnalysis-takuok 数据来源：互联网公开数据标签：文本校对, 错误分析, 自然语言处理, 机器学习, 模型评估, 预测分析, 文本纠错, 数据集数据概述：该数据集包含来自文本校对任务的预测结果，记录了模型对文本进行校对时产生的预测错误。主要特征如下：...

ZIP

多语言平行文本互译数据集MultilingualParallelTextTranslationDataset-shubhamkathiriya

2025年5月1日

多语言平行文本互译数据集MultilingualParallelTextTranslationDataset-shubhamkathiriya 数据来源：互联网公开数据标签：机器翻译, 文本翻译, 多语言, 语言模型, 文本校对, 西班牙语, 印地语, 英语数据概述：...

ZIP

多语言文本改写与翻译数据集MultilingualTextRewritingandTranslationDataset-yinjiashu

2025年5月1日

多语言文本改写与翻译数据集MultilingualTextRewritingandTranslationDataset-yinjiashu 数据来源：互联网公开数据标签：文本改写, 机器翻译, 多语言, 语言模型, 文本生成, 自然语言处理, 文本校对, 语言学习数据概述：...

ZIP

语音转录文本数据集AudioTranscriptionTextDataset-quangphat

2025年5月1日

语音转录文本数据集AudioTranscriptionTextDataset-quangphat 数据来源：互联网公开数据标签：语音识别, 语音转录, 文本分析, 越南语, 声学模型, 文本校对, 自然语言处理, 数据集构建数据概述：该数据集包含来自公开渠道的越南语语音转录文本数据，旨在用于语音识别与转录任务。主要特征如下：...

ZIP

尼泊尔语拼写纠错数据集NepaliSpellingCorrectionDataset-amardura

2025年4月29日

尼泊尔语拼写纠错数据集NepaliSpellingCorrectionDataset-amardura 数据来源：互联网公开数据标签：拼写纠错, 尼泊尔语, 自然语言处理, 文本校对, 语言模型, 错误检测, 数据清洗, 机器翻译数据概述：该数据集包含尼泊尔语文本，记录了正确的文本及其对应的错误拼写形式，用于尼泊尔语拼写纠错任务。主要特征如下：...

ZIP

文本校对与错误纠正数据集TextProofreadingandErrorCorrectionDataset-austuvarki

2025年4月29日

文本校对与错误纠正数据集TextProofreadingandErrorCorrectionDataset-austuvarki 数据来源：互联网公开数据标签：文本校对, 错误纠正, 语言模型, 自然语言处理, 文本编辑, 语法纠错, 句子对齐, 机器翻译数据概述：...

ZIP

英语语法纠错数据集EnglishGrammarCorrectionDataset-austuvarki

2025年4月29日

英语语法纠错数据集EnglishGrammarCorrectionDataset-austuvarki 数据来源：互联网公开数据标签：语法纠错, 文本校对, 自然语言处理, 语言模型, 机器翻译, 文本生成, 英语学习, 数据增强数据概述：该数据集包含来自公开渠道的英语文本数据，记录了原始英文句子及其对应的语法纠正后的版本。主要特征如下：...

ZIP

英文拼写纠错数据集EnglishSpellingCorrectionDataset-amalsakkoumi

2025年4月29日

英文拼写纠错数据集EnglishSpellingCorrectionDataset-amalsakkoumi 数据来源：互联网公开数据标签：拼写纠错, 自然语言处理, 文本校对, 语言模型, 词汇纠正, 机器学习, 英语学习, 文本数据数据概述：...

ZIP

文本内容变异检测数据集TextContentMutationDetection-devayani14

2025年4月29日

文本内容变异检测数据集TextContentMutationDetection-devayani14 数据来源：互联网公开数据标签：文本分析, 数据清洗, 文本变异, 恶意文本, 错误检测, 数据挖掘, 自然语言处理, 文本校对数据概述：该数据集包含来自互联网的数据，记录了文本内容及其变异版本，用于检测文本在不同情况下的变化。主要特征如下：...

ZIP

多语言机器翻译回译验证集MultilingualMachineTranslationBack-translatedValidationSet-antozaelgamd

2025年4月29日

多语言机器翻译回译验证集MultilingualMachineTranslationBack-translatedValidationSet-antozaelgamd 数据来源：互联网公开数据标签：机器翻译, 回译, 文本摘要, 多语言, 文本校对, 语言模型, 数据增强, 验证集数据概述：...

ZIP

语音转录文本数据集SpeechTranscriptionTextDataset-sanjaymalladi29

2025年4月29日

语音转录文本数据集SpeechTranscriptionTextDataset-sanjaymalladi29 数据来源：互联网公开数据标签：语音识别, 文本分析, 语音转录, 文本标注, 自然语言处理, 数据挖掘, 语料库, 文本校对数据概述：该数据集包含语音转录文本数据，记录了从语音文件中提取的文本内容。主要特征如下：...

ZIP

书籍文本错误纠正数据集-shuaibing

2025年4月26日

书籍文本错误纠正数据集-shuaibing 数据来源：互联网公开数据标签：文本纠错，自然语言处理，数据集，机器学习，文本校对，语言模型，文本处理，错误检测数据概述：该数据集包含书籍文本及其对应的校正后文本，用于训练和评估文本错误纠正模型。主要特征如下：时间跨度：数据记录的时间跨度涵盖了不同时期出版的书籍。...

ZIP

大规模文本生成与校对数据集BYT5-CorrectedDataset-jakir57

2025年4月24日

大规模文本生成与校对数据集BYT5-CorrectedDataset-jakir57 数据来源：互联网公开数据标签：自然语言处理，文本生成，文本校对，数据集，机器翻译，语言模型，文本纠错，人工智能数据概述：该数据集基于 Google 的大型语言模型 T5，记录了大规模文本生成和校对的数据。主要特征如下：...