找到50个数据集

标签: NLP研究

过滤结果
  • LLM_Personas_Based协作系统知识管理框架数据集

    2026年1月28日 30 95 35

    数据集概述 本数据集围绕协作系统中LLM生成角色的知识管理框架构建,包含源代码压缩包、LLM生成意见的相似度分析、清洗数据、嵌入数据、原始数据以及真实意见数据等6个文件,覆盖原始、处理后等不同形态的角色相关数据,支持对LLM生成角色与真实角色意见的对比分析。 文件详解 Source-Code.zip 文件格式:ZIP...
    packageimg
  • NicheHazardQA_Based_问答系统数据集

    2026年2月7日 30 158 128

    数据集概述 本数据集为NicheHazardQA,包含一个JSON格式文件,未划分训练/测试集、数据/标签集及原始/处理数据集,无说明文档或内容预览,主要用于问答相关任务。 文件详解 数据文件 文件名称:NICHEHAZARDQA.json 文件格式:JSON 字段映射介绍:无可用内容预览,具体字段信息未提供 适用场景 问答系统开发:...
    packageimg
  • SemEval_2024_Task3_对话多模态情感原因分析数据集

    2026年2月6日 30 150 59

    数据集概述 本数据集为SemEval-2024 Task 3的竞赛数据,聚焦对话场景下的多模态情感原因分析,包含文本单模态(TECPE)和多模态(MECPE)两个子任务的训练与测试数据,用于提取对话中的情感-原因对,支持情感计算与自然语言处理相关研究。 文件详解 说明文档 文件名称:README.md 文件格式:MD...
    packageimg
  • DIALLS语料库的主要和次要分析报告_修订版

    2026年2月1日 30 66 12

    数据集概述 本数据集为DIALLS语料库的主次分析修订结果,包含一份处理后的Excel文件。数据涉及NLP文本语料库分析,可能关联医疗CT相关内容,无训练测试、数据标签或原始处理的拆分,专注于语料库的标准化分析呈现。 文件详解 文件名称:CORPUS LIGHT CODED_correct.xlsx 文件格式:XLSX...
    packageimg
  • TopiOCQA_独立文件_问答任务训练验证数据集

    2026年1月31日 30 99 56

    数据集概述 本数据集为TopiOCQA数据集的独立文件,包含训练和验证两个JSON文件,无目录结构,文件类型统一为JSON格式,可用于问答相关任务的模型训练与验证。 文件详解 训练文件 文件名称:topiocqa_train.json 文件格式:JSON 字段映射介绍:未提供具体字段信息,推测包含问答任务训练所需的输入输出数据。 验证文件...
    packageimg
  • Touché23_Task2_因果问题证据检索任务数据

    2026年1月31日 30 151 94

    数据集概述 本数据集为Touché 2023会议因果问题证据检索任务的专用数据,包含任务所需的主题文件、相关性判断文件及结果压缩包,共5个文件,无目录层级划分,可直接用于该任务的模型训练、评估与结果复现。 文件详解 文件名称:runs-task2.zip 文件格式:ZIP 字段映射介绍:任务相关的运行结果压缩包,具体内容需解压后查看...
    packageimg
  • ClimaQA_SLO_斯洛文尼亚气候领域问答基准数据

    2026年1月30日 30 104 16

    数据集概述 本数据集为斯洛文尼亚气候问答基准(ClimaQA_SLO),用于检验大语言模型在斯洛文尼亚环境相关领域(如气候变化、能源、林业)的事实核查能力。数据集包含斯洛文尼亚语的气候知识问答内容,支持评估模型的气候领域专业知识准确性。 文件详解 文件名称:ClimaQA_SLO.xlsx 文件格式:XLSX...
    packageimg
  • CARP_Based工具增强型计算密集型数学推理评估数据集

    2026年1月30日 30 204 175

    数据集概述 本数据集包含四千八百八十六个中学计算密集型代数问题,每个问题配有自然语言解答和带注释的EFG(显式推理图),EFG以简洁可读的格式展示解题步骤。数据集共九个文件,主要为JSON格式,用于评估和改进工具增强的数学推理能力。 文件详解 数据文件(JSON格式,共8个)...
    packageimg
  • UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库

    2026年1月29日 30 18 12

    数据集概述 本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容,主要用于训练抽象式文本摘要模型。数据集仅含一个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,便于集中使用。 文件详解 文件名称:UCS-Dataset.xlsx 文件格式:XLSX...
    packageimg
  • Flexico_Source_自适应可持续机器翻译实验复现数据

    2026年1月29日 30 57 4

    数据集概述 本数据集用于复现论文“Flexico: Sustainable Machine Translation via Self-Adaptation”的研究结果,包含6个文件,涉及香港新闻和opus_eng_fra数据集的实验数据,涵盖聚类距离、时间统计等机器翻译自适应相关指标,支持可持续翻译模型的实验验证。 文件详解 香港新闻数据集相关文件...
    packageimg
  • nlp_text_sentence_Based_汉印尼复合句数据集

    2026年1月27日 30 150 67

    数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
    packageimg
  • SemEval_2024_Task3_对话多模态情感原因分析数据集

    2026年1月27日 0 43 7

    数据集概述 本数据集为SemEval-2024 Task 3的竞赛数据,聚焦对话场景下的多模态情感原因分析,包含文本单模态(TECPE)和多模态(MECPE)两个子任务的训练与测试数据,用于提取对话中的情感-原因对,支持情感计算与自然语言处理相关研究。 文件详解 说明文档 文件名称:README.md 文件格式:MD...
    packageimg
  • Deep_learning_Based_孟加拉语深度学习问答系统数据集

    2026年1月26日 30 47 11

    数据集概述 本数据集是论文《Deep learning based question answering system in Bengali》的配套数据,为SQuAD 2.0数据集的孟加拉语翻译版本,包含训练、验证及预处理翻译结果三类文件,共3个JSON格式文件,可用于孟加拉语问答系统的深度学习研究。 文件详解...
    packageimg
  • XYZ_Food_Reviews_Based_食品评论数据集编码与测试结果数据

    2026年1月19日 30 128 15

    数据集概述 本数据集包含XYZ食品评论的原始数据、处理后数据及相关实验代码,涵盖数据处理、模型训练与实验测试三部分内容,支持食品评论相关的自然语言处理研究,共含5个文件。 文件详解 数据文件 文件名称:Full Raw Dataset.csv 文件格式:CSV...
    packageimg
  • Trawling_for_Trolling_Based_社交媒体骚扰类型标注数据集

    2026年1月18日 30 155 91

    数据集概述 本数据集包含12490行社交媒体内容样本,按仇恨言论、贬损内容、网络骚扰、亵渎内容和正常内容五类标注。数据主要来源于Twitter、Reddit和Wikipedia讨论页,无帖子元数据,可用于网络骚扰类型识别相关研究。 文件详解 文件名称:Dataset_to_upload.xlsx 文件格式:XLSX...
    packageimg
  • Webis_Clickbait_Based_2016年Twitter推文标注数据集

    2026年1月15日 30 102 89

    数据集概述 本数据集为Webis Clickbait Corpus 2016,包含2014年从转发量前20的新闻出版商处采样的2992条Twitter推文,由三位独立标注者手动标注是否为clickbait,其中767条被多数标注者判定为clickbait。多数投票结果可作为构建clickbait检测技术的基准真值,是该领域首个数据集。 文件详解...
    packageimg
  • DBpedia_Conversation_Question_Answering_Dataset

    2026年1月12日 30 62 30

    数据集概述 本数据集基于DBpedia构建,包含一百一十五个问题及五十组对话内容,用于支持对话式问答相关研究。数据集以单一JSON文件形式存储,未划分训练/测试集、数据/标签集或原始/处理集,可直接用于对话式问答模型的训练或评估。 文件详解 文件名称:context_questions_benchmark.json 文件格式:JSON...
    packageimg
  • LLM逆向工程序列图泛化能力复现数据包

    2025年12月13日 30 180 148

    数据集概述 本数据集是论文《On the Generalization Capabilities of LLMs for Reverse Engineering Sequence Diagrams》的复现数据包,包含实验所需的源代码、模型生成的序列图数据等,支持复现论文中的研究结果。 文件详解 RE-LLMs-...
    packageimg
  • NERdME_Based_命名实体识别任务完整数据集

    2025年12月20日 30 95 51

    数据集概述 本数据集包含NERdME相关的压缩文件和标注指南文档,为命名实体识别任务提供数据及操作参考,支持相关算法训练或研究分析。 文件详解 文件名称: NERdME.zip 文件格式: ZIP压缩包 内容说明: 包含NERdME相关的原始或处理后的数据文件,具体内容需解压后查看 文件名称:...
    packageimg
  • 大型语言模型预防性引导与SCAB协议整合数据集

    2025年12月23日 30 99 32

    数据集概述 本数据集聚焦于通过角色向量对大型语言模型进行预防性引导的研究,旨在将行为对齐与SCAB协议整合,以实现伦理AI部署。核心内容为一份学术文档,提供相关理论框架与协议设计的详细说明。 文件详解 文件名称: Academic preventative steering .pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg