找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 有颌脊椎动物进化初期核酸传感器形成研究支持信息数据集

    2025年11月29日   

    数据集概述 本数据集为“有颌脊椎动物进化初期核酸传感器形成”研究的支持信息,包含序列比对和系统发育分析两类核心数据,覆盖PKR相关蛋白、eif2α激酶等分子的系统发育关系及多类群PKR的序列比对结果,助力相关进化机制研究。 文件详解 该数据集包含两个核心目录,均为TXT格式文件,具体说明如下: - Data for alignment/...
    packageimg
  • 孟加拉语YouTube新闻舆情数据集

    2025年11月29日   

    数据集概述 该数据集包含某知名孟加拉语YouTube新闻频道发布的新闻文章及对应的公众评论、回复等信息,共762678条样本、15个特征,涵盖视频URL、标题、互动数据、发布信息及评论内容,同时提供英文翻译文件。 文件详解 核心数据文件:...
    packageimg
  • 说服性语言技巧数据集

    2025年11月29日   

    数据集概述 该数据集围绕说服性语言技巧展开,包含实验结果与统计分析文件。主要存储为stw格式统计文件及一个Excel格式结果文件,为相关研究提供数据支持。 文件详解 主目录文件(PLT/): results_25.06.2016.xlsx:Excel格式文件,可能包含2016年6月25日的实验结果数据 统计文件目录(PLT/stats/):...
    packageimg
  • 印度人民院数据集2019_2024

    2025年11月29日   

    数据集概述 该数据集基于印度第17届人民院(2019-2024)第一届会议数据构建,包含6200个文件,每个文件最多含6组对应问题与答案,覆盖多个相关部委,为研究印度议会问答内容提供结构化数据支持。 文件详解 文件名称: VindLok Dataset.xlsx 文件格式: Excel (.xlsx) 核心字段: Loksabha: 人民院届次...
    packageimg
  • ChatGPT_AI生成医学研究摘要示例数据集

    2025年11月29日   

    数据集概述 本数据集包含使用ChatGPT/OpenAI的PlaygroundAI程序生成的学术摘要示例。数据集主要涵盖医学研究领域,包括临床研究、随机对照试验和基础科学等主题的摘要模板。所有文件均为PDF格式,共计五个文件,其中包含一个使用说明文件。 文件详解 临床研究摘要示例 文件名称:Clinical Research Abstract...
    packageimg
  • CaRS_50学术论文引言修辞步骤标注语料库

    2025年11月29日   

    数据集概述 该数据集包含50篇学术论文引言的XML标注文件,基于Swales的CaRS模型标注每个句子的修辞功能(Move 1-3及对应Step a-d)。论文来源于BioRxiv,覆盖动物行为与认知等5个生物学科,每类10篇,为学术写作修辞结构研究提供标注数据。 文件详解 目录结构: CaRS-50 Dataset Annotated corpus...
    packageimg
  • 跨项目需求可追溯性工程数据集

    2025年11月29日   

    数据集概述 该数据集是针对自然语言工件的跨项目需求可追溯性工程数据集,包含37个项目的15,872条需求及7,624条验证过的跨项目链接,通过对比学习技术构建。支持软件工程与自然语言处理领域研究,为跨项目知识转移与复用提供数据支撑。 文件详解...
    packageimg
  • Twitter交通信息系统开发用带交通标签推文数据集

    2025年11月29日   

    数据集概述 本数据集包含通过Twitter搜索API收集的推文,每条推文被标注为非交通(NT)、交通事件(TI)、交通状况与信息(TCI)三类,同时提供交通相关(TI+TCI)与非相关(NT)的二分类版本,支持交通信息系统的开发。 文件详解 3分类数据集文件:...
    packageimg
  • 荷兰语前缀动词的不透明性_透明性与形态启动效应研究数据集

    2025年11月29日   

    数据集概述 本数据集为《Opacity, Transparency, and Morphological Priming: A Study of Prefixed Verbs in Dutch》一文配套的实验数据与R脚本文件,包含两项实验相关的压缩包,为研究荷兰语前缀动词的形态启动效应及语义透明度/不透明性差异提供数据支持。 文件详解...
    packageimg
  • 软件需求工程中的自然语言处理应用数据集2025

    2025年11月29日   

    数据集概述 本数据集包含来自医疗、金融、电商、交通等多领域15个软件项目的1145条软件需求,其中功能需求722条、非功能需求424条(含性能、安全、可用性等属性),用于评估NLTK、OpenAI、spaCy三款主流NLP工具在需求分析中的表现。 文件详解...
    packageimg
  • 足球实时文本解说中的隐喻数据集2025

    2025年11月29日   

    数据集概述 该数据集包含2025年欧洲冠军联赛、欧会杯及欧联杯的实时文本解说内容,基于认知隐喻理论分析解说中的概念隐喻,数据源于体育实时资讯平台提供的赛事解说文档。 文件详解 赛事解说文档: 2025 UEFA Champions League Final.docx: DOCX格式文档,包含2025年欧洲冠军联赛决赛的实时文本解说内容 2025...
    packageimg
  • 俄语拼写纠错开放数据集

    2025年11月29日   

    数据集概述 本数据集为俄语拼写纠错开放数据,包含训练和测试两部分,核心内容是俄语错误拼写与正确形式的单词对,通过维基百科语料库词频分析生成,用于俄语拼写纠错模型的开发与测试。 文件详解 文件名称:test_pairs.csv 文件格式:CSV 字段映射:包含两列,“incorrect”列存储错误拼写的俄语单词,“correct”列存储对应的正确拼写形式...
    packageimg
  • 年龄检测数据集

    2025年11月29日   

    数据集概述 本数据集包含一万条社交媒体评论及其对应的年龄组标签,用于支持基于文本内容的年龄检测研究。数据以单一CSV文件形式提供,每条记录包含用户评论文本和预先标注的年龄组信息,涵盖从18-24岁到50岁以上的多个年龄段。 文件详解 文件名称: Age Detection DataSet/full_dataset.csv 文件格式: CSV...
    packageimg
  • ChatGPT_Logs_用户写作实践完整日志数据第2至6周

    2025年11月29日   

    数据集概述 本数据集包含第2周至第6周期间用户与ChatGPT交互的文档日志,总计525个文件。数据按周次和参与者编号组织,主要记录了用户在写作练习过程中的文档生成、修改和最终版本。内容涵盖多种写作主题,包括在线学习、塑料污染等,反映了用户与AI交互的完整工作流程。 文件详解 用户写作文档(User Writing Documents) 文件名称:...
    packageimg
  • 斯洛文尼亚开放科学文档元数据数据集

    2025年11月29日   

    数据集概述 本数据集包含斯洛文尼亚公共领域学术文档的元数据条目,涵盖本科及研究生论文、研究与专业文章等多种类型。数据来自斯洛文尼亚多个独立图书馆系统,经去重合并后形成统一元数据方案,包含标题、关键词、摘要、类型、作者、年份等属性,支持文本挖掘与内容推荐系统开发。 文件详解 数据集包含CSV和JSON两种格式的结构化数据文件及说明文档,具体如下: -...
    packageimg
  • Pygotham_学术引用句子完整数据集2017

    2025年11月29日   

    数据集概述 本数据集包含从CC-BY许可的学术论文中提取的29,105个包含引用的句子,主要用于学术文本引用分析研究。数据集提供了原始句子数据、数据处理和分析工具,包括Databricks社区版笔记本和相关的技术演示材料,支持对学术引用模式、上下文分析等研究应用。 文件详解 学术引用句子数据文件...
    packageimg
  • HDLTex_WOS_层次化学术文献分类完整数据集2017

    2025年11月29日   

    数据集概述 本数据集包含三个独立的Web of...
    packageimg
  • 古吉拉特语新闻文章数据集

    2025年11月29日   

    数据集概述 本数据集是精心收集的古吉拉特语新闻文章集合,涵盖政治、经济、文化、体育、娱乐等多种主题,为研究人员和开发者开展古吉拉特语自然语言处理(NLP)任务及机器学习应用提供了宝贵资源。 文件详解 文件名称: Gujarati News Articles/data.zip 文件格式: .zip(压缩包) 内容说明:...
    packageimg
  • 安徒生童话事件抽取数据集

    2025年11月29日   

    数据集概述 本数据集基于安徒生童话文本,通过事件抽取处理构建而成。数据源自三个公开平台的英文版本童话,经清洗与结构化处理,以JSON和CSV格式存储,包含童话原文、分句数据及事件抽取结果,适用于自然语言处理相关任务。 文件详解 文件名称:fairy_tales_andersen.fairy_tales.json 文件格式:JSON...
    packageimg
  • WoLLaI_Mal_Eng_单词级语言识别数据集

    2025年11月29日   

    数据集概述 本数据集是针对马拉雅拉姆语-英语混合文本的单词级语言识别标注数据,包含一万二千四百零二个句子,标注类别分为马拉雅拉姆语(Mal)、英语(Eng)、混合词(Mix)和其他(Othr)四类,支持自然语言处理领域的语言识别任务研究。 文件详解 该数据集包含三个格式的文件,具体说明如下: - 文件名称:...
    packageimg