-
数据2024中国计算机学会CCF检索增强生成RAG数据集-yxw666
2024中国计算机学会CCF检索增强生成RAG数据集-yxw666 数据来源:互联网公开数据 标签:自然语言处理,检索增强生成,数据集,文本生成,信息检索,机器学习,人工智能,CCF 数据概述: 该数据集由中国计算机学会(CCF)提供,旨在促进检索增强生成(RAG)技术的研究与发展。主要特征如下: 时间跨度:数据记录的时间范围为2024年。...
-
预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisD...
预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisDataset-solomonschwiger 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,停用词,机器学习,数据预处理,文本分析,信息检索 数据概述:...
-
参数数据-参数信息数据集ParamsDataDataset-phamkhacduy
参数数据-参数信息数据集ParamsDataDataset-phamkhacduy 数据来源:互联网公开数据 标签:参数数据,数据集,数据分析,机器学习,特征工程,模型训练,数据挖掘,信息检索 数据概述: 该数据集包含了各种参数的数据,记录了不同类型参数的详细信息。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于具体参数的更新频率。...
-
图书信息与描述数据集BookswithDescriptionDataset-fakhriabbas
图书信息与描述数据集BookswithDescriptionDataset-fakhriabbas 数据来源:互联网公开数据 标签:图书信息,数据集,文本分析,自然语言处理,信息检索,教育研究,出版行业 数据概述:该数据集包含来自公开图书信息库的数据,记录了各类图书的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从20世纪到现代。...
-
用户问题数据集UserQuestionsDataFramesCSVDataset-saijasthi
用户问题数据集UserQuestionsDataFramesCSVDataset-saijasthi 数据来源:互联网公开数据 标签:用户问题,数据集,数据分析,机器学习,自然语言处理,数据挖掘,信息检索,文本分析 数据概述: 该数据集包含来自用户问题的数据,记录了用户提出的问题及相关信息。主要特征如下:...
-
元数据语料库聚合数据集MetaCorpusAggregateDataset-jpmusdata
元数据语料库聚合数据集MetaCorpusAggregateDataset-jpmusdata 数据来源:互联网公开数据 标签:数据集,自然语言处理,文本分析,机器学习,信息检索,数据挖掘,语料库,语言模型 数据概述: 该数据集包含来自多个来源的语料库数据,记录了不同领域的文本信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。...
-
自然语言处理问答任务数据集ChAIiTrainFixedDataset-zacchaeus
自然语言处理问答任务数据集ChAIiTrainFixedDataset-zacchaeus 数据来源:互联网公开数据 标签:自然语言处理,问答系统,数据集,机器学习,文本分析,深度学习,人工智能,信息检索 数据概述: 该数据集来源于ChAIi问答任务竞赛,专注于自然语言处理领域的问答系统研究。主要特征如下:...
-
谷歌问答数据集扩展GoogleQUESTQAAdd-onDataset-jasperwang530
谷歌问答数据集扩展GoogleQUESTQAAdd-onDataset-jasperwang530 数据来源:互联网公开数据 标签:问答系统,自然语言处理,数据集,机器学习,文本分析,人工智能,语义理解,信息检索 数据概述: 该数据集是谷歌问答数据集的扩展版本,包含来自谷歌问答社区的问答数据,记录了用户提交的问题及其对应的回答内容。主要特征如下:...
-
多模态文本摘要数据集MT-SummDataset-gsaichaitanya
多模态文本摘要数据集MT-SummDataset-gsaichaitanya 数据来源:互联网公开数据 标签:多模态数据,文本摘要,数据集,自然语言处理,深度学习,机器学习,多媒体分析,信息检索 数据概述: 该数据集包含来自多个来源的多模态文本摘要数据,记录了图像和相应文本的摘要信息。主要特征如下:...
-
地区报纸可视化元数据数据集-nikhilwani
地区报纸可视化元数据数据集-nikhilwani 数据来源:互联网公开数据 标签:新闻,可视化,数据集,文本分析,自然语言处理,信息检索,媒体研究,出版物 数据概述: 该数据集包含来自地区报纸的可视化元数据,记录了报纸文章中可视元素的详细信息。主要特征如下: 时间跨度:数据记录的时间范围为未知,具体时间跨度取决于数据集的原始来源。...
-
科学BERT数据集SciBERTDataset-cse006kongkanbora
科学BERT数据集SciBERTDataset-cse006kongkanbora 数据来源:互联网公开数据 标签:科学文献,自然语言处理,数据集,机器学习,深度学习,文本分类,学术研究,信息检索 数据概述:该数据集包含来自多个科学文献的数据,记录了大量科学论文的摘要,文本和相关元数据。主要特征如下:...
-
文本分类数据集TextClassificationDataset-albellna
文本分类数据集TextClassificationDataset-albellna 数据来源:互联网公开数据 标签:文本分类,自然语言处理,数据集,机器学习,文本分析,信息检索,人工智能,语言模型 数据概述: 该数据集包含来自多个来源的文本数据,记录了不同类别文本的样本,适用于文本分类,情感分析等应用。主要特征如下:...
-
学术会议论文数据集AcademicConferencesPapersDataset-igalbronshtein
学术会议论文数据集AcademicConferencesPapersDataset-igalbronshtein 数据来源:互联网公开数据 标签:学术会议,论文,数据集,自然语言处理,文本分析,信息检索,学术研究,机器学习 数据概述: 该数据集包含来自多个学术会议的论文数据,记录了会议论文的标题,摘要,关键词,作者信息等。主要特征如下:...
-
自然语言处理与信息检索INLP作业3数据集INLPAssignment3Dataset-shubhamkathiriya
自然语言处理与信息检索INLP作业3数据集INLPAssignment3Dataset-shubhamkathiriya 数据来源:互联网公开数据 标签:自然语言处理,信息检索,数据集,文本分类,机器学习,深度学习,文本分析,数据挖掘 数据概述:...
-
BM25基础训练集数据集-danielphalen
BM25基础训练集数据集-danielphalen 数据来源:互联网公开数据 标签:信息检索,文本处理,数据集,自然语言处理,BM25,搜索算法,文本相似度,机器学习 数据概述:该数据集包含用于训练和评估BM25(Best Match 25)模型的文本数据,主要用于信息检索任务。主要特征如下: 时间跨度:数据涵盖了从特定时间段内收集的文本数据。...
-
维基百科文章上下文语境数据集WikipediaArticleContextDataset-yalickj
维基百科文章上下文语境数据集WikipediaArticleContextDataset-yalickj 数据来源:互联网公开数据 标签:自然语言处理,文本分析,维基百科,数据集,语境理解,机器学习,文本挖掘,知识图谱 数据概述:该数据集包含来自维基百科的文章数据,旨在研究文章的上下文语境信息。主要特征如下:...
-
医疗问答数据集QA-MED-nguynvtng
医疗问答数据集QA-MED-nguynvtng 数据来源:互联网公开数据 标签:医疗,问答,数据集,自然语言处理,医学,机器学习,文本分析,知识图谱 数据概述: 该数据集包含医疗领域的问答对,旨在促进医疗领域的自然语言处理研究。主要特征如下: 时间跨度: 数据记录的时间范围不限,涵盖了不同时期的医疗知识。 地理范围:...
-
健康问答数据集ViHealthQADataset-quangnguynvnnn
健康问答数据集ViHealthQADataset-quangnguynvnnn 数据来源:互联网公开数据 标签:健康问答,数据集,医疗健康,自然语言处理,机器学习,医学研究,信息检索,人工智能 数据概述:该数据集包含来自互联网的健康问答数据,记录了用户提出健康相关问题及专家的回答。主要特征如下: 时间跨度:数据记录的时间范围从2018年到2022年。...
-
越南新闻摘要数据集VietnameseSummaryDataset-trinhnguyenthmai
越南新闻摘要数据集VietnameseSummaryDataset-trinhnguyenthmai 数据来源:互联网公开数据 标签:越南语,文本摘要,数据集,自然语言处理,NLP,机器翻译,信息检索,文本分析 数据概述: 该数据集包含来自越南新闻网站的文章及其对应的摘要。主要特征如下:...
-
新闻头条数据集NewsHeadlineDataset-satyamneelmani
新闻头条数据集NewsHeadlineDataset-satyamneelmani 数据来源:互联网公开数据 标签:新闻,头条,数据集,文本分析,自然语言处理,机器学习,信息检索,舆情分析 数据概述:该数据集包含来自各大新闻媒体的头条新闻数据,记录了新闻的标题,发布时间,来源媒体,新闻类别等信息。主要特征如下:...



