找到377个数据集

分类: 公开数据 标签: 自然语言处理

过滤结果
  • 数学到双位点与三位点关系从句附着的层级结构启动数据集

    2025年11月30日 30 200 48

    数据集概述 该数据集包含2019年发表的“数学到双位点与三位点关系从句附着的层级结构启动”研究的实验数据与分析脚本,涵盖两项实验的参与者信息、启动条件、目标附着响应及错误标记等内容,为探究数学结构对语言句法处理的启动效应提供数据支持。 文件详解 该数据集包含五个文件,具体说明如下: - 数据文件(CSV格式): -...
    packageimg
  • 成人脊柱畸形患者访谈情感分析的脊柱专用词典与SRS22_SF36_ODI评分相关性数据集

    2025年11月30日 30 53 36

    数据集概述 本数据集为一项针对二十五例成人脊柱畸形患者的试点研究,包含用于构建脊柱专用情感分析词典的材料、患者访谈相关文件及分析代码,验证了基于远程医疗访视转录本的情感分析指标与传统HRQOL指标的相关性。 文件详解 说明文件: README.txt: 文本格式,介绍数据集包含的内容,如研究用开放式问题、脊柱专用词典、虚构患者应答及分析代码等。...
    packageimg
  • YouTube评论情感分析与主题建模数据集

    2025年11月28日 30 181 15

    数据集概述 本数据集包含针对YouTube平台上与“乡村目的地、乡村生活方式”等关键词相关视频的评论数据,支持情感分析与主题建模研究,涵盖排序与未排序的视频列表及综合数据。 文件详解 Master Data.xlsx:Excel格式文件,可能为综合数据文件,包含与YouTube评论情感分析和主题建模相关的核心数据。 Sorted YouTube...
    packageimg
  • 多臂老虎机用于信息检索系统池化评估中文档裁决数据集

    2025年11月30日 30 136 41

    数据集概述 该数据集围绕信息检索系统池化评估场景,提供了基于多臂老虎机算法的文档裁决相关数据,包含代码文件、元数据及说明文档,为研究池化评估中的文档裁决方法提供支持。 文件详解 数据描述文件: pooling_bandits_ms.html: HTML格式,可能包含数据集或项目的详细说明文档 代码文件 (.r格式):...
    packageimg
  • 孟加拉地区命名实体识别基准数据集_ANCHOLIK_NER

    2025年11月29日 30 70 52

    数据集概述 该数据集是针对孟加拉锡尔赫特、吉大港、巴里萨尔、迈门辛和诺阿卡利方言的命名实体识别基准数据集,包含一万七千四百零五个句子,均匀分布于五个地区,实体分为十种类型。原始句子来源于两个公开数据集及网络爬虫获取的在线报刊文章。 文件详解 该数据集包含多个CSV格式文件,具体说明如下: - 原始句子文件: - Regional_NER (Raw...
    packageimg
  • 孟加拉语孤立语音数据集

    2025年11月29日 30 5 3

    数据集概述 该数据集包含孟加拉语孤立语音样本,涵盖34个孟加拉语单词和24个英语单词,由25名来自孟加拉国不同地区的人员录制,每个单词30个样本,总计1800个样本,用于语音识别相关研究。 文件详解 该数据集由两个压缩文件组成,具体说明如下: - 文件名称: Bangla Isolated Speech...
    packageimg
  • 库尔德社交媒体抑郁检测数据集KSO_DD

    2025年11月29日 30 64 36

    数据集概述 该数据集包含一万零一百四十五条库尔德索拉尼语社交媒体评论,经预处理并标注用于抑郁检测研究。数据覆盖多平台,通过八列结构记录处理流程,为库尔德语心理健康自然语言处理提供首个专用资源。 文件详解 文件名称: KSO-DD.xlsx 文件格式: XLSX 字段映射: Raw_Comments: 原始评论内容 Fields: 提取字段...
    packageimg
  • 可持续商业实践公众反馈数据集2015_2025

    2025年11月29日 30 177 156

    数据集概述 该数据集包含2015至2025年间从四个在线平台收集的三千五百二十三条公众评论,围绕可持续商业实践展开,覆盖生物可降解材料、绿色能源等十一个核心可持续发展主题,为分析公众对可持续商业的态度提供基础数据。 文件详解 数据文件: EcoForumFeedbackDataset.xlsx:XLSX格式,包含三千五百二十三条公众评论的原始数据...
    packageimg
  • 抽取式摘要数据集

    2025年11月29日 30 33 4

    数据集概述 该数据集包含一百篇英文文档,专为生成摘要任务创建,提供用于抽取式摘要研究的基础语料。数据集以单一压缩包形式存储,未划分训练测试、数据标签或原始处理子集。 文件详解 文件名称: ESSg_dataset.zip 文件格式: ZIP (.zip) 内容说明: 压缩包内包含一百篇英文文档,未提供具体字段映射信息,文件内部结构需解压后查看 适用场景...
    packageimg
  • 技术接受模型文献数据集2000_2024

    2025年11月29日 30 141 106

    数据集概述 本数据集收录了2000至2024年间Scopus数据库中与技术接受模型相关的文献,经去重和无关研究筛选处理,为技术接受领域的文献分析提供基础资料。 文件详解 文件名称:Technology Acceptance Literature from 2000-2024/technology adoption (Master-after...
    packageimg
  • 网约车应用评论主观性检测数据集2024_2025

    2025年11月29日 30 38 7

    数据集概述 该数据集包含2024年11月至2025年3月从Google Play Store收集的1338条网约车应用(Gojek、Grab、Maxim)用户评论,经人工标注为主观(1)或客观(0),支持自然语言处理和机器学习领域的主观性检测研究,适用于交通服务相关的用户反馈分析。 文件详解 文件名称: Subride - Subjectivity...
    packageimg
  • ErdoWatch_埃尔多安演讲词频分析数据集2014_2020

    2025年11月29日 30 99 43

    数据集概述 该数据集包含2014至2020年埃尔多安演讲的词频分析数据,涵盖演讲原文文档、词频统计文件及相关辅助文件。数据集结构分为多个目录,以年份月份组织演讲内容与对应词频分析结果,为研究演讲语言特征和用词趋势提供数据支持。 文件详解 该数据集由多个目录和文件组成,具体说明如下: - 根目录文件: - RTE 2014-2020 Tüm...
    packageimg
  • 菌根类型与气候对细根性状功能关系影响数据集

    2025年11月29日 30 201 153

    数据集概述 本数据集为研究菌根类型与气候对细根性状功能关系影响的文献配套数据,包含菌根类型、细根性状(如比根长、根直径等)及根系呼吸速率等核心信息,支持相关领域的数据分析与验证。 文件详解 文件名称:Root trait and Rr.xlsx 文件格式:Excel(.xlsx)...
    packageimg
  • 古兰经语言学多层标注数据集

    2025年11月29日 30 180 29

    数据集概述 该数据集为古典阿拉伯语(CA)自然语言处理提供计算可访问的综合语言资源,包含古兰经的正字法、形态学、句法学三层标注,共约十三万二千七百三十六个词元,经专家验证,助力CA NLP研究与应用。 文件详解 文件名称:Quranic.rar 文件格式:RAR压缩包 内容说明:压缩包内包含古兰经的多层标注数据,采用扩展CoNLL-...
    packageimg
  • 多语言民族数据集MELD

    2025年11月29日 30 112 31

    数据集概述 该数据集旨在解决计算语言学和自然语言处理(NLP)中少数民族语言严重代表性不足的问题。包含查克马语、加罗语、马尔马语的音译文本样本,以及标准孟加拉语和英语翻译,共3046条标注句子,适用于语言识别、机器翻译和情感分析等任务。 文件详解 数据文件: Language Dataset- Chakma, Garo, Marma, Standard...
    packageimg
  • 印尼政治谣言数据集

    2025年11月29日 30 120 86

    数据集概述 该数据集包含印尼政治新闻文章,分为谣言和非谣言两类,整合了Kaggle数据集与从可靠在线新闻平台收集的新数据,为相关研究提供支持。 文件详解 文件名称: combined_test.csv,文件格式: CSV 字段: cleaned(清洗后的文本内容)、label(标签,区分谣言与非谣言) 文件名称:...
    packageimg
  • 网络舆情情感极性与风险放大数据集

    2025年11月29日 30 105 30

    数据集概述 本数据集与论文《Sentiment Polarity and Risk Amplification in Online Public Opinion: A Configurational Analysis of University Crisis Events》相关,围绕网络舆情中的情感极性与风险放大展开,为相关研究提供数据支持。 文件详解...
    packageimg
  • 第二语言写作期刊25年调查数据集

    2025年11月29日 30 61 39

    数据集概述 本数据集是针对《第二语言写作期刊》(JSLW)创刊前25年发表的所有全文文章的调查数据,通过单一Excel文件整合相关信息,为研究该期刊25年发展历程提供数据支持。 文件详解 文件名称: Copy of JSLW data file (002).xlsx 文件格式: Excel (.xlsx) 内容说明:...
    packageimg
  • 泰米尔语正常人群语音数据库

    2025年11月29日 30 95 54

    数据集概述 该数据集为泰米尔语正常人群语音数据库,收录15至46岁泰米尔语母语者的语音数据,包含孤立数字、连接词及连续句子,采样率16kHz、16位单声道PCM格式,可用于语音识别等研究。 文件详解 文件名称: Speech database-Normal persons-Tamil.rar 文件格式: RAR(压缩包格式) 内容说明:...
    packageimg
  • 罗兴亚新闻报道语料库数据集2016_2020

    2025年11月29日 30 101 55

    数据集概述 本数据集收录了二零一六年至二零二零年间国际及孟加拉国媒体关于罗兴亚难民危机的新闻报道语料,包含新闻来源链接、媒体清单及编译后的纯文本语料,为多领域研究人员分析危机报道特征提供数据支持。 文件详解 该数据集按阶段划分文件,具体说明如下: - 阶段一(NOW语料库)文件: - Hyperlinks from NOW Corpus...
    packageimg