-
翻译质量评估数据集QuACE数据集-emam2002
翻译质量评估数据集QuACE数据集-emam2002 数据来源:互联网公开数据 标签:机器翻译,数据集,翻译质量评估,自然语言处理,文本分析,语言学,深度学习,文本相似度 数据概述: 该数据集包含来自 QuACE(Quality Assessment of Computer-Enhanced... -
土耳其大国民议会命名实体识别数据集TBMMNERDataset-esrapolat
土耳其大国民议会命名实体识别数据集TBMMNERDataset-esrapolat 数据来源:互联网公开数据 标签:自然语言处理,命名实体识别,土耳其语,数据集,文本分析,政治,机器学习,NLP 数据概述: 该数据集包含来自土耳其大国民议会(TBMM)的文本数据,用于命名实体识别(NER)任务。主要特征如下:... -
健康与生命科学相关Reddit讨论数据集HealthandLifeScienceRelatedRedditDiscussionsDataset-amalinow
健康与生命科学相关Reddit讨论数据集HealthandLifeScienceRelatedRedditDiscussionsDataset-amalinow 数据来源:互联网公开数据 标签:健康科学,生命科学,社交网络,数据分析,机器学习,自然语言处理,医学研究,公众健康 数据概述:... -
数据2011-2019年主题话题数据集2011-2019年主题话题数据集-marcosneco
2011-2019年主题话题数据集2011-2019年主题话题数据集-marcosneco 数据来源:互联网公开数据 标签:主题分析,社交媒体,数据集,文本分析,自然语言处理,社会研究,情感分析,市场趋势 数据概述:该数据集包含来自社交媒体平台的2011年至2019年期间的主题话题数据,记录了不同时间段内热门话题和讨论内容。主要特征如下:... -
数据512维度的嵌入向量数据集Embedding-512-2Dataset-bankit1234
512维度的嵌入向量数据集Embedding-512-2Dataset-bankit1234 数据来源:互联网公开数据 标签:文本嵌入,语义分析,自然语言处理,机器学习,向量表示,深度学习,数据集,特征提取 数据概述: 该数据集包含512维度的文本嵌入向量,用于表示文本的语义信息。主要特征如下:... -
计算重用-词句银行数据集RecomputeUsingWord-SentBankDataset-minhhieu002
计算重用-词句银行数据集RecomputeUsingWord-SentBankDataset-minhhieu002 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,语言模型,计算重用,语义理解,人工智能 数据概述: 该数据集包含来自词句银行(Word-Sent... -
越南问答数据集VietnameseQuestionAnsweringDataset-khinguynphan
越南问答数据集VietnameseQuestionAnsweringDataset-khinguynphan 数据来源:互联网公开数据 标签:问答系统, 自然语言处理, 文本检索, 信息抽取, 越南语, 语料库, 机器阅读理解, 数据集 数据概述: 该数据集包含来自越南语语料库的问答对,旨在支持越南语问答系统的开发与研究。主要特征如下:... -
COVID-19挑战论文分词数据集TokenizedWordsCOVID-19ChallengeDataset-omarkhalil27
COVID-19挑战论文分词数据集TokenizedWordsCOVID-19ChallengeDataset-omarkhalil27 数据来源:互联网公开数据 标签:COVID-19, 数据集, 文本处理, 自然语言处理, 机器学习, 医学研究, 学术资源, 文献分析 数据概述:... -
聊天机器人性能对比数据集LMSYSChatbotArenaData-morufubello
聊天机器人性能对比数据集LMSYSChatbotArenaData-morufubello 数据来源:互联网公开数据 标签:人工智能,聊天机器人,数据集,机器学习,自然语言处理,性能评估,对话系统,算法比较 数据概述: 该数据集来源于LMSYS(大型机器系统)平台的聊天机器人竞技场,记录了多种聊天机器人在不同场景下的性能表现。主要特征如下:... -
新闻文章内容分析数据集NewsArticleContentAnalysisDataset-haianhjobs
新闻文章内容分析数据集NewsArticleContentAnalysisDataset-haianhjobs 数据来源:互联网公开数据 标签:新闻文章, 内容分析, 文本挖掘, 自然语言处理, 文本分类, 信息提取, 舆情分析, 数据集 数据概述:... -
DAGI扩展非论文数据集DAGIExtendedNon-EssayDataset-bulivington
DAGI扩展非论文数据集DAGIExtendedNon-EssayDataset-bulivington 数据来源:互联网公开数据 标签:数据集,文本分析,机器学习,自然语言处理,数据挖掘,文本分类,非结构化数据,学术资源 数据概述: 该数据集包含来自DAGI项目的扩展数据,记录了非论文类文本的详细信息。主要特征如下:... -
语音合成训练数据集TTSTrainingDataset-ayushs9020
语音合成训练数据集TTSTrainingDataset-ayushs9020 数据来源:互联网公开数据 标签:语音合成,数据集,机器学习,自然语言处理,人工智能,语言学,语音识别,文本转语音 数据概述:该数据集包含来自多个来源的语音合成训练数据,记录了文本与相应语音的对应关系,用于训练语音合成模型。主要特征如下:... -
文本摘要语料库预处理数据集TextSummarizationCorpusPreprocessed-anandheeanand
文本摘要语料库预处理数据集TextSummarizationCorpusPreprocessed-anandheeanand 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 语料库, 预处理, 文本分析, 词嵌入, 机器学习, 文本挖掘 数据概述: 该数据集包含经过预处理的文本数据,旨在为文本摘要任务提供训练素材。主要特征如下:... -
大型语言模型新筛选数据集LLMNewFilteredDataset-ashkankhademian
大型语言模型新筛选数据集LLMNewFilteredDataset-ashkankhademian 数据来源:互联网公开数据 标签:人工智能,自然语言处理,数据集,机器学习,语言模型,文本分析,深度学习,模型训练 数据概述: 该数据集包含经过筛选的大型语言模型(LLM)训练数据,记录了用于优化和训练语言模型的文本内容。主要特征如下:... -
叙利亚冲突新闻摘要分析数据集SyriaConflictNewsSummaryAnalysis-ipaini
叙利亚冲突新闻摘要分析数据集SyriaConflictNewsSummaryAnalysis-ipaini 数据来源:互联网公开数据 标签:新闻摘要, 文本分析, 叙利亚冲突, 自然语言处理, 政治评论, 事件分析, 机器学习, 舆情分析 数据概述: 该数据集包含来自新闻报道的叙利亚冲突相关文章,记录了文章主体内容及其摘要。主要特征如下:... -
英语到印地语翻译数据集-amnydv17
英语到印地语翻译数据集-amnydv17 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,数据集,语言学,英语,印地语,文本翻译,深度学习 数据概述: 该数据集包含了大量的英语到印地语的翻译文本对,旨在用于机器翻译模型的训练和评估。主要特征如下: 时间跨度:数据集的构建时间跨度不固定,持续更新和扩展。... -
越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll
越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll 数据来源:互联网公开数据 标签:文本分类, 越南语, 自然语言处理, 语料库, 商业, 行政, 文本清洗, 机器学习 数据概述: 该数据集包含来自越南语文本的数据,记录了越南语文本及其对应的类别标签。主要特征如下:... -
商品标题文本分类数据集ProductTitleTextClassificationDataset-its4iris
商品标题文本分类数据集ProductTitleTextClassificationDataset-its4iris 数据来源:互联网公开数据 标签:商品标题, 文本分类, 商品信息, 自然语言处理, 机器学习, 数据清洗, 标题生成, 产品识别 数据概述:... -
虚假新闻文本分析数据集FakeNewsTextAnalysisDataset-shwe1308
虚假新闻文本分析数据集FakeNewsTextAnalysisDataset-shwe1308 数据来源:互联网公开数据 标签:虚假新闻, 文本分析, 新闻分类, 自然语言处理, 情感分析, 机器学习, 舆情分析, 数据清洗 数据概述:... -
医学影像报告诊断数据集MIDRCRICORD-600-lunar123
医学影像报告诊断数据集MIDRCRICORD-600-lunar123 数据来源:互联网公开数据 标签:医学影像,放射学,自然语言处理,数据集,文本分析,疾病诊断,临床研究,人工智能 数据概述: 该数据集来自医学影像数据资源中心(MIDRC),是RICORD-600项目的公开数据集,包含医学影像报告及其对应的诊断结果。主要特征如下:...