-
大规模LLM论文写作数据集LLM-Full-Renatovilella200k-Essays-renatovilella
大规模LLM论文写作数据集LLM-Full-Renatovilella200k-Essays-renatovilella 数据来源:互联网公开数据 标签:LLM,论文写作,数据集,文本生成,自然语言处理,学术研究,语言模型,写作评估 数据概述: 该数据集包含来自Renato... -
新闻文本分类数据集NewsTextClassificationDataset-fnicnarcisalexandru
新闻文本分类数据集NewsTextClassificationDataset-fnicnarcisalexandru 数据来源:互联网公开数据 标签:文本分类, 新闻, 自然语言处理, 机器学习, 舆情分析, 政治, 社会, 语言模型 数据概述: 该数据集包含来自新闻媒体的文章文本,记录了不同主题的新闻内容,用于文本分类任务。主要特征如下:... -
俄语文本相似度对比分析数据集RussianTextSimilarityComparison-victoriasaz
俄语文本相似度对比分析数据集RussianTextSimilarityComparison-victoriasaz 数据来源:互联网公开数据 标签:文本相似度, 俄语, 自然语言处理, 文本分析, 语义理解, 语言模型, 文本匹配, 数据集 数据概述: 该数据集包含来自开放文本资源的数据,记录了俄语文本片段之间的相似度对比信息。主要特征如下:... -
中文日常语句翻译数据集ChineseDailySentenceTranslationDataset-jahnaviyelamanchi
中文日常语句翻译数据集ChineseDailySentenceTranslationDataset-jahnaviyelamanchi 数据来源:互联网公开数据 标签:机器翻译, 语言学习, 中文, 文本数据, 语料库, 句子翻译, 自然语言处理, 语言模型 数据概述:... -
BKAI语料库2023年中文文本数据集-minhnguyendichnhat
BKAI语料库2023年中文文本数据集-minhnguyendichnhat 数据来源:互联网公开数据 标签:中文文本,自然语言处理,数据集,机器学习,深度学习,文本分析,语言模型,人工智能 数据概述: 该数据集为BKAI项目的一部分,主要记录了大量中文文本数据,适用于自然语言处理、文本分析等任务。主要特征如下:... -
自然语言处理词汇表与模型初始化数据集NaturalLanguageProcessingVocabularyandModelInitializationDa...
自然语言处理词汇表与模型初始化数据集NaturalLanguageProcessingVocabularyandModelInitializationDataset-alibaba19 数据来源:互联网公开数据 标签:自然语言处理, 词汇表, 预训练模型, 语言模型, 深度学习, 文本数据, 模型初始化, 词嵌入 数据概述:... -
越南语语音识别训练数据集VietnameseSpeechRecognitionTrainingDataset-quanghoang123
越南语语音识别训练数据集VietnameseSpeechRecognitionTrainingDataset-quanghoang123 数据来源:互联网公开数据 标签:语音识别, 越南语, 语音数据集, 声学模型, 语言模型, 语音转录, 深度学习, 自然语言处理 数据概述:... -
BERT模型训练数据集BERTModelTrainingDataset-hoanganhvu31102002
BERT模型训练数据集BERTModelTrainingDataset-hoanganhvu31102002 数据来源:互联网公开数据 标签:自然语言处理,数据集,机器学习,深度学习,文本分类,语言模型,人工智能,BERT模型 数据概述: 该数据集是用于训练BERT(Bidirectional Encoder Representations from... -
泰语文本纠错数据集ThaiTextCorrectionDataset-holydark30
泰语文本纠错数据集ThaiTextCorrectionDataset-holydark30 数据来源:互联网公开数据 标签:泰语, 文本纠错, 自然语言处理, 机器翻译, 语言模型, 文本校对, 数据增强, 深度学习 数据概述: 该数据集包含泰语文本的原始文本(src)及其对应的纠正后文本(tgt),主要用于训练和评估泰语文本纠错模型。主要特征如下:... -
英俄平行语料翻译数据集English-RussianParallelTranslationDataset-user17234
英俄平行语料翻译数据集English-RussianParallelTranslationDataset-user17234 数据来源:互联网公开数据 标签:机器翻译, 语料库, 自然语言处理, 文本对齐, 语言学, 俄语, 英语, 语言模型 数据概述: 该数据集包含来自互联网的英俄平行语料,记录了英语句子及其对应的俄语翻译。主要特征如下:... -
维基百科HowTo文章摘要与正文数据集WikiHowArticleSummaryandText-ibrahimhimida
维基百科HowTo文章摘要与正文数据集WikiHowArticleSummaryandText-ibrahimhimida 数据来源:互联网公开数据 标签:文本摘要, 文本生成, 内容分析, 语言模型, 文本挖掘, 机器翻译, 多语言, 数据集 数据概述:... -
文本生成与翻译数据集En-T5ParaphraseDataset-terrychanorg
文本生成与翻译数据集En-T5ParaphraseDataset-terrychanorg 数据来源:互联网公开数据 标签:文本生成,翻译,数据集,自然语言处理,机器学习,深度学习,语言模型,文本分析 数据概述: 该数据集包含来自En-T5模型的文本生成与翻译数据,主要记录了英语文本的同义句生成和翻译任务的数据。主要特征如下:... -
论文写作辅助与生成模型评估数据集EssayWritingAssistanceandGenerationModelEvaluationDataset-sam...
论文写作辅助与生成模型评估数据集EssayWritingAssistanceandGenerationModelEvaluationDataset-samarthsaxena2004 数据来源:互联网公开数据 标签:论文写作, 文本生成, 语言模型, 自然语言处理, 机器学习, 写作评估, 数据分析, 生成模型 数据概述:... -
机器翻译与反向翻译数据集AES2Back-TranslationDataset-samvelkoch
机器翻译与反向翻译数据集AES2Back-TranslationDataset-samvelkoch 数据来源:互联网公开数据 标签:机器翻译,反向翻译,数据集,自然语言处理,语言模型,文本生成,多语言,人工智能 数据概述: 该数据集包含来自机器翻译与反向翻译任务的数据,记录了不同语言之间的翻译和反向翻译样本。主要特征如下:... -
DAIGTV2增强版数据集DAIGTV2AugmentedDataset-trungngoq
DAIGTV2增强版数据集DAIGTV2AugmentedDataset-trungngoq 数据来源:互联网公开数据 标签:文本生成,自然语言处理,数据集,深度学习,语言模型,文本分类,对抗训练,写作辅助 数据概述: 该数据集是DAIGT V2数据集的增强版本,旨在提升文本生成和分类模型的性能。主要特征如下:... -
英语写作质量评估文本数据集EnglishWritingQualityAssessmentTextDataset-vlomme
英语写作质量评估文本数据集EnglishWritingQualityAssessmentTextDataset-vlomme 数据来源:互联网公开数据 标签:文本质量评估, 英语写作, 语言模型, 文本分析, 自然语言处理, 写作评分, 机器学习, 数据标注 数据概述:... -
语音识别错误校正数据集SpeechRecognitionErrorCorrectionDataset-tuhuutuong
语音识别错误校正数据集SpeechRecognitionErrorCorrectionDataset-tuhuutuong 数据来源:互联网公开数据 标签:语音识别, 语音校正, 文本校正, 声学模型, 语言模型, 深度学习, 数据增强, 自然语言处理 数据概述:... -
文本处理语料库数据集ProcessedCorpusDataset-colinsmyth001
文本处理语料库数据集ProcessedCorpusDataset-colinsmyth001 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,文本分类,语言模型,数据挖掘,信息检索 数据概述: 该数据集包含经过预处理的文本语料库,记录了多种来源的文本数据,经过清洗和标准化处理。主要特征如下:... -
文本生成模型评估数据集TextGenerationModelEvaluationDataset-dhruvdarda
文本生成模型评估数据集TextGenerationModelEvaluationDataset-dhruvdarda 数据来源:互联网公开数据 标签:文本生成, 模型评估, 语言模型, 文本质量, 自然语言处理, 语料分析, 机器学习, 生成文本 数据概述: 该数据集包含用于评估文本生成模型性能的数据,记录了生成的文本及其相关质量指标。主要特征如下:... -
CNN和每日邮报新闻摘要增强数据集CNN-DailyMailNewsSummaryAugmentedDataset-lachonman2
CNN和每日邮报新闻摘要增强数据集CNN-DailyMailNewsSummaryAugmentedDataset-lachonman2 数据来源:互联网公开数据 标签:新闻摘要,文本摘要,自然语言处理,深度学习,数据集,文本分析,机器翻译,语言模型 数据概述: 该数据集源自CNN和每日邮报(Daily...