-
印地语-英语平行语料翻译数据集Hindi-EnglishParallelTranslationCorpus-chinmaycp9
印地语-英语平行语料翻译数据集Hindi-EnglishParallelTranslationCorpus-chinmaycp9 数据来源:互联网公开数据 标签:机器翻译, 语料库, 文本翻译, 自然语言处理, 双语数据, 印地语, 英语, 语言模型 数据概述: 该数据集包含来自互联网的印地语-... -
自然语言处理与情感分析数据集NLP-4-5M-Clean-SentencesDataset-amardura
自然语言处理与情感分析数据集NLP-4-5M-Clean-SentencesDataset-amardura 数据来源:互联网公开数据 标签:自然语言处理,情感分析,数据集,文本分类,机器学习,数据挖掘,人工智能,语言模型 数据概述: 该数据集包含来自多个来源的清洗后的句子数据,记录了用于自然语言处理和情感分析任务的高质量文本内容。主要特征如下:... -
多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho
多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho 数据来源:互联网公开数据 标签:文本分类, 恶意评论, 多语言, 自然语言处理, 情感分析, 语言模型, 文本清洗, 机器学习 数据概述:... -
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库 数据概述: 该数据集包含经过处理的阿拉伯语文本,记录了原始文本及其对应的去标点版本。主要特征如下:... -
英语语法纠错对比数据集EnglishGrammarErrorCorrectionComparison-austuvarki
英语语法纠错对比数据集EnglishGrammarErrorCorrectionComparison-austuvarki 数据来源:互联网公开数据 标签:语法纠错, 文本校对, 语言模型, 自然语言处理, 机器翻译, 数据增强, 错误检测, 文本生成 数据概述:... -
歌词生成与自然语言处理数据集LyricsNanogptDataset-razaali10
歌词生成与自然语言处理数据集LyricsNanogptDataset-razaali10 数据来源:互联网公开数据 标签:自然语言处理,歌词生成,数据集,文本分析,机器学习,深度学习,语言模型,文本生成 数据概述: 该数据集包含来自多个来源的歌词数据,记录了不同风格和类型的歌词文本。主要特征如下: 时间跨度:数据记录的时间范围从20世纪到现代。... -
语言模型性能评估数据集LMSYSDataset-coldn00ldes
语言模型性能评估数据集LMSYSDataset-coldn00ldes 数据来源:互联网公开数据 标签:语言模型,性能评估,数据集,机器学习,自然语言处理,人工智能,模型优化,算法评估 数据概述: 该数据集由LMSYS项目提供,主要记录了不同语言模型在多种任务中的性能表现。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。... -
DAGI-DAUC-GPT3-5语言模型评估数据集DAGI-DAUC-GPT3-5LanguageModelEvaluationDataset-aleron751
DAGI-DAUC-GPT3-5语言模型评估数据集DAGI-DAUC-GPT3-5LanguageModelEvaluationDataset-aleron751 数据来源:互联网公开数据 标签:自然语言处理,语言模型,数据集,机器学习,文本生成,模型评估,人工智能,深度学习 数据概述: 该数据集包含来自DAGI-... -
马达加斯加语语音转录数据集MalagasySpeech-to-TextDataset-misandratrarazafy
马达加斯加语语音转录数据集MalagasySpeech-to-TextDataset-misandratrarazafy 数据来源:互联网公开数据 标签:语音识别, 语音转录, 马达加斯加语, 声学模型, 语言模型, 语音数据, 机器学习, 自然语言处理 数据概述: 该数据集包含马达加斯加语的语音音频及其对应的文本转录,旨在为语音识别(Speech-... -
BERT模型测试数据集BERTDataTestDataset-vha20020362
BERT模型测试数据集BERTDataTestDataset-vha20020362 数据来源:互联网公开数据 标签:自然语言处理,BERT模型,数据集,机器学习,文本分析,语言模型,深度学习,人工智能 数据概述: 该数据集包含用于测试BERT模型性能的文本数据,记录了各种类型的文本样本及其标签。主要特征如下: 时间跨度:数据记录的时间范围为当前年份。... -
Bangla日常对话文本数据集BanglaConversationalTextDataset-istiaqahmedfahad
Bangla日常对话文本数据集BanglaConversationalTextDataset-istiaqahmedfahad 数据来源:互联网公开数据 标签:自然语言处理, 对话系统, 数据集, 机器学习, 语音识别, 语言模型, 人工智能, 多语言 数据概述:... -
BERT模型渐进式提示数据集BERTProgressivePromptsDataset-neffow
BERT模型渐进式提示数据集BERTProgressivePromptsDataset-neffow 数据来源:互联网公开数据 标签:自然语言处理, BERT模型, 数据集, 机器学习, 语言模型, 深度学习, 文本分析, 人工智能 数据概述:... -
英语写作评估特征及得分数据集EnglishEssayAssessmentFeaturesandScores-gbinhk17hl
英语写作评估特征及得分数据集EnglishEssayAssessmentFeaturesandScores-gbinhk17hl 数据来源:互联网公开数据 标签:英语写作, 文本分析, 写作评估, 特征工程, 语言模型, 机器评分, 文本特征, 写作质量 数据概述:... -
文本语境理解训练数据集TextContextUnderstandingTrainingDataset-venkatapadavala
文本语境理解训练数据集TextContextUnderstandingTrainingDataset-venkatapadavala 数据来源:互联网公开数据 标签:文本分析, 语境理解, 自然语言处理, 语言模型, 文本数据, 机器学习, 数据集, 训练数据 数据概述:... -
标题:生成文本数据集(Biduyhin Generated Text Dataset)
标题:生成文本数据集(Biduyhin Generated Text Dataset) 数据来源:互联网公开数据 标签:文本生成,数据集,自然语言处理,语言模型,机器学习,文本分析,人工智能,创作辅助 数据概述: 该数据集包含了由 Biduyhin 算法生成的文本数据,旨在用于自然语言处理和文本生成相关的研究。主要特征如下:... -
标题:基于人工智能生成的文本数据集(AI-Generated Text Dataset)
标题:基于人工智能生成的文本数据集(AI-Generated Text Dataset) 数据来源:互联网公开数据 标签:人工智能,文本生成,数据集,自然语言处理,机器学习,文本分析,语言模型,数据挖掘 数据概述: 该数据集包含由人工智能模型生成的文本数据,旨在用于自然语言处理(NLP)相关的研究和应用。主要特征如下:... -
文本质量评估数据集TextQualityEvaluationDataset-goldenlock
文本质量评估数据集TextQualityEvaluationDataset-goldenlock 数据来源:互联网公开数据 标签:文本评估, 语言模型, 文本分析, 写作质量, 语法, 连贯性, 词汇, 标注数据 数据概述: 该数据集包含用于评估文本写作质量的数据,记录了文本的各项语言学特征和人工评估结果。主要特征如下:... -
预处理后语料库数据集CorpusAfterPreprocessed18deDataset-ictworld
预处理后语料库数据集CorpusAfterPreprocessed18deDataset-ictworld 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,数据预处理,机器学习,文本分类,语言模型,深度学习 数据概述: 该数据集包含经过预处理的文本数据,记录了经过清洗、分词和标准化等处理的语料信息。主要特征如下:... -
维基文本嵌入数据集WikitextTextEmbeddingsDataset-hozaifazaki99
维基文本嵌入数据集WikitextTextEmbeddingsDataset-hozaifazaki99 数据来源:互联网公开数据 标签:文本嵌入,自然语言处理,数据集,机器学习,词向量,文本分析,语言模型,维基百科 数据概述:... -
图灵基准测试数据集TuringBenchDataset-robikiso
图灵基准测试数据集TuringBenchDataset-robikiso 数据来源:互联网公开数据 标签:人工智能,自然语言处理,数据集,基准测试,模型评估,对话系统,语言模型,机器学习,文本生成 数据概述: 该数据集包含来自图灵基准测试的数据,记录了用于评估人工智能模型在各种任务上的表现,特别是自然语言理解和生成能力。主要特征如下:...