找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 用户故事模糊性数据集_综合研究资源

    2025年11月27日   

    数据集概述 该数据集是用户故事模糊性的大规模实证集合,包含来自金融、医疗、电商等八个行业公司的12,847条真实用户故事,系统标注敏捷开发环境中的模糊性模式,覆盖团队特征、项目结果等属性,揭示组织学习效应与模糊性影响因素,为需求工程研究提供实证支持。 文件详解 文件名称:...
    packageimg
  • 印度道路投诉推文句法增强数据集2016

    2025年11月27日   

    数据集概述 该数据集包含2016年7月18日至9月13日4周内,用户向印度政府两个公共机构账号(@MORTHIndia和@nitin_gadkari)发布的道路投诉推文。数据经句法增强处理,含预处理和富集后的表格内容。 文件详解 文件名称: killer_roads.sql 文件格式: SQL (.sql) 内容说明:...
    packageimg
  • 人工智能在有声书平台互操作性与可访问性的文献综述研究数据集2025

    2025年11月27日   

    数据集概述 该数据集为2025年在信息科学领域开展的“人工智能在有声书平台互操作性与可访问性”主题文献综述研究资料,包含文献综述中检索并选定全文阅读的文献识别信息。 文件详解 文件名称:Quadro 2 - Identificação de documentos recuperados.xlsx 文件格式:Excel (.xlsx)...
    packageimg
  • 法律用例中大型语言模型评估数据集

    2025年11月27日   

    数据集概述 本数据集为针对法律用例中大型语言模型(LLMs)学术研究的快速文献综述完整数据,包含主数据表格及多个补充表格,覆盖评估指标、模型分类、法律领域应用场景与任务类型等核心内容。 文件详解 文件名称: Repository Data.xlsx 文件格式: Excel表格(.xlsx) 核心内容:...
    packageimg
  • 胰腺癌生物医学知识图谱数据集

    2025年11月27日   

    数据集概述 该数据集包含约一百万条高置信度胰腺癌生物医学三元组,涵盖23个相关生物医学实体和11种常见关系类型。每条三元组配有模拟科学表述的自然语言句子及0.75至1.00的注意力得分,为生物医学自然语言处理模型提供训练或验证资源。 文件详解 文件名称: pancreatic_cancer_kg_original.csv 文件格式: CSV 字段映射:...
    packageimg
  • 交通研究委员会在研项目数据库

    2025年11月27日   

    数据集概述 该数据集包含交通研究委员会(TRB)各类研究项目的记录,涵盖已批准、被拒、在研及终止的研究资助信息,包括项目编号、摘要、标题、资助金额、索引词和主题领域等字段,用于分析研究项目文本内容。 文件详解 该数据集包含一个核心数据文件,具体说明如下: - 文件名称: Transportation Research Board, research...
    packageimg
  • 婴儿利什曼原虫γ_谷氨酰环转移酶数据集

    2025年11月27日   

    数据集概述 本数据集包含婴儿利什曼原虫(JPCM5株)γ-谷氨酰环转移酶的相关信息,通过单一文本文件呈现蛋白质名称、对应生物分类及参考信息等内容,为该蛋白质的基础研究提供数据支持。 文件详解 文件名称: LINF_200009800/LINF_200009800.txt 文件格式: TXT(.txt) 内容字段:...
    packageimg
  • 印度最高法院法律词汇嵌入数据集1950_2016

    2025年11月27日   

    数据集概述 该数据集是基于印度最高法院1950年1月至2016年12月间的四万八千余份判决训练的法律领域词嵌入模型,包含三万四千余个法律词汇及对应的一百维向量,采用Word2Vec的CBOW变体训练。 文件详解 文件名称: Legal W2V 文件格式: 无扩展名 核心内容:...
    packageimg
  • 计算机科学课程学生问题数据集_按布鲁姆分类法分类与评分

    2025年11月27日   

    数据集概述 该数据集包含孟加拉国独立大学2023年夏季学期计算机科学课程学生提出的问题,按布鲁姆分类法六个认知层次(记忆至创造)手动分类并评分,旨在探索AI在教育中的应用,激发学生好奇心,降低计算机科学课程辍学率。 文件详解 课程问题文件(CSV格式):...
    packageimg
  • 夜间运动活动与光照暴露_抑郁障碍亚型客观活动记录数据集

    2025年11月27日   

    数据集概述 该数据集包含基于客观活动记录技术获取的夜间运动活动与光照暴露原始数据,用于分析忧郁型与非忧郁型抑郁障碍的生物节律特征,所有时间生物学变量需通过“El temps”软件量化。 文件详解 文件名称:Melancolia_andre.sav 文件格式:SPSS数据文件(.sav)...
    packageimg
  • 废物管理清洁发展机制计算机辅助定性内容分析NVivo10数据集

    2025年11月27日   

    数据集概述 该数据集包含一个NVivo 10®格式文件,涵盖2004至2014年联合国气候变化框架公约京都议定书倡议下注册的7个废物管理行业的432个清洁发展机制项目设计文件(PDD),并已按技术、财务等五类障碍编码为890个文本片段。 文件详解 文件名称: MDL Barriers.rar 文件格式: RAR(压缩包) 压缩内容: 包含一个NVivo...
    packageimg
  • 新闻文本机器翻译质量评估指标数据集

    2025年11月27日   

    数据集概述 该数据集包含英文新闻文本经四种机器翻译系统(谷歌统计/神经翻译、MT@EC统计翻译、E-Translation神经翻译)译为斯洛伐克语后的自动评估指标值,涵盖PER、WER、TER、CDER、BLEU等核心翻译质量指标,用于自动化评估机器翻译结果。 文件详解 文件名称: Data.txt 文件格式: TXT 字段映射:...
    packageimg
  • 希伯来字母数值系统辅助图像理解方法

    2025年11月27日   

    数据集概述 本数据集聚焦希伯来字母数值系统(Gematria)在图像理解中的应用方法,通过测试验证该系统可帮助解读包含主体与动作的图像,为图像文本关联分析提供新视角。 文件详解 文件名称:The Hebrew Gematria Method To Help Understand Pictures.pdf 文件格式:PDF...
    packageimg
  • 孟加拉国2006年劳动法问答数据集

    2025年11月27日   

    数据集概述 该数据集包含基于孟加拉国2006年劳动法的问答对,支持孟加拉语及英文自然语言处理任务。原始为孟加拉语,更新后新增英文版本,适用于法律自动化、AI法律辅助及政策分析场景。 文件详解 文件名称:Bangladesh Labor Act, 2006 Dataset For NLP.xlsx 文件格式:Excel (.xlsx)...
    packageimg
  • 成年阅读困难者理解言语时语境信息使用的事件相关电位数据集

    2025年11月27日   

    数据集概述 本数据集聚焦成年阅读困难者在言语理解过程中对语境信息的使用,包含事件相关电位(ERP)数据与行为数据,为研究其言语理解机制提供实验数据支持。 文件详解 CompQ RT...
    packageimg
  • 库尔德语摘要数据集

    2025年11月27日   

    数据集概述 该数据集为库尔德语摘要模型开发提供资源,包含四万余篇新闻文章及记者人工撰写的摘要,覆盖政治、体育、科学等多领域,助力库尔德语自然语言理解与摘要模型训练。 文件详解 文件名称:KurdSum (1).xlsx 文件格式:Excel(.xlsx)...
    packageimg
  • IT_IS制品社会表征调查数据集

    2025年11月27日   

    数据集概述 本数据集是关于IT/IS制品社会表征的调查数据,包含调查数据库、访谈问题的文本分析结果及分析配置文档,为研究IT/IS制品在社会认知中的表现提供多类型数据支持。 文件详解 SocialRepresentationITArtifact/dataBase.csv:CSV格式数据文件,包含调查的基础数据,字段含时间戳、语言选择等调查信息。...
    packageimg
  • 孟加拉语性别偏见检测多维度数据集

    2025年11月27日   

    数据集概述 该数据集聚焦孟加拉语文本中的性别偏见检测,包含2451条标注数据,覆盖新闻、社交媒体等来源的句子或短语,标注了是否存在偏见、偏见类型及修正建议,为研究孟加拉语性别偏见提供结构化数据支持。 文件详解 文件名称: A Multifaceted Approach to Gender Bias Detection in Bengali.csv...
    packageimg
  • 生物研究论文语篇片段类型预测优化机器学习方法分析代码集

    2025年11月27日   

    数据集概述 该数据集包含用于分析生物研究论文语篇片段类型预测的Jupyter Notebook代码文件,基于A. de Waard提供的数据展开实验与分析,聚焦机器学习方法优化,涉及动词时态实验、类别平衡及特征选择等内容。 文件详解 SD-SAVE SDT verb tense experiment.ipynb:Jupyter...
    packageimg
  • WNSimRep本体语义相似度度量与信息内容模型复制数据集

    2025年11月27日   

    数据集概述 该数据集是HESML软件库配套的复制数据集,基于WordNet 3.0构建,包含节点型、边型、同义词集对型三类数据文件,覆盖内在及语料库基信息内容模型与本体语义相似度度量,支持文献中相关模型的精确复现。 文件详解 压缩数据包:...
    packageimg