找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 维基百科人类医学语料库

    2025年11月27日   

    数据集概述 该数据集是西班牙语-英语双语单标签语料库,包含从维基百科提取的2143篇英文、469篇西班牙文人类医学文档,分为替代医学、心脏病学等22个类别,为医学文本研究提供双语分类数据支持。 文件详解 该数据集包含两个文件,具体说明如下: - 文件名称: wikipedia_human_medicine_corpus.zip - 文件格式:...
    packageimg
  • CL_UVigoMED生物医药摘要双语语料库

    2025年11月27日   

    数据集概述 该数据集是一个双语语料库,核心内容为从MEDLINE数据库提取的英文与西班牙文生物医药摘要。数据集包含两个文件,无目录结构,为自然语言处理(NLP)等相关领域的研究提供基础语料支持。 文件详解 文件名称: CL_UvigoMED_corpus_creation.png 文件格式: PNG (.png) 内容说明:...
    packageimg
  • 朝韩中三国韩语新闻语料库中_人_词搭配偏好比较分析研究数据集

    2025年11月26日   

    数据集概述 该数据集构建了包含中国《延边日报》、朝鲜《劳动新闻》、韩国《中央日报》的三百万韩语"语节"新闻语料库,筛选出含"人"(인민)的片段,统计了词素类型及组合类型的出现频率,用于三国韩语新闻中"人"词搭配偏好的比较分析。 文件详解 3 million morpheme type...
    packageimg
  • 摩洛哥阿拉伯语医疗问答数据集

    2025年11月27日   

    数据集概述 该数据集是首个公开的摩洛哥阿拉伯语(Darija)医疗领域问答数据集,包含超十一万四千条标注医疗专科的问答对,覆盖精神病学、心脏病学等二十三个专科,填补了北非低资源方言临床自然语言处理的空白。 文件详解 该数据集由二十四个CSV格式文件组成,按医疗专科分类存储,具体说明如下: - 综合数据文件: - MedQA_MA.csv:...
    packageimg
  • 智利儿童教科书词汇语料库2022

    2025年11月27日   

    数据集概述 该数据集是智利小学教育核心词汇的专业语料库,包含两万三千二百九十七个智利西班牙语词汇。数据来源于二零二二年收集的五十八本完整学生用书,覆盖学前至四年级的科学、历史、语言、社会科学和数学官方教材,以及教育部推荐的学前阅读材料,为研究智利学生词汇习得提供代表性样本。 文件详解 该数据集包含两个文件,具体说明如下: -...
    packageimg
  • 改变我的观点子版块对话树样本数据集3000

    2025年11月27日   

    数据集概述 该数据集包含来自“改变我的观点”(CMV)子版块的3000个对话树样本,用于支持“预测在线对话中的语篇子线程”相关研究,为分析在线讨论结构提供数据基础。 文件详解 文件名称: all_posts.pickle 文件格式: Pickle (.pickle) 内容说明: 存储了3000个来自CMV子版块的对话树样本,未提供具体字段映射信息...
    packageimg
  • 基于字典的大规模文本标注系统文档_Spark_SolrTextTagger_OpenNLP

    2025年11月27日   

    数据集概述 本数据集包含一份演示文稿,介绍一种基于Spark、SolrTextTagger和OpenNLP技术的大规模文本标注系统。该系统支持通过Solr存储字典,利用Lucene的有限状态转换器实现低内存精确匹配,同时结合OpenNLP进行模糊匹配,可处理百万级字典条目,返回匹配位置、实体ID及置信度等结果。 文件详解 文件名称:...
    packageimg
  • Game_of_Spoilers_剧透检测推文标注数据2015_06

    2025年11月27日   

    数据集概述 本数据集为论文"Game of Spoilers"(剧透游戏)研究项目所使用的Twitter数据,包含截至2015年6月14日收集的推文内容。数据经过筛选,仅保留与"livro"(书籍)和"livros"(书籍,复数)相关的推文,主要用于社交媒体中的剧透内容检测研究。数据集包含数据与标签的划分,适合用于文本分类模型的训练和评估。 文件详解...
    packageimg
  • 唐氏综合征儿童物理治疗父母视角定性研究数据集

    2025年11月27日   

    数据集概述 本数据集为一项定性研究的成果,聚焦唐氏综合征儿童父母对物理治疗的期望与实际体验。研究通过访谈13名3-17岁唐氏综合征儿童的父母,采用归纳主题分析法处理访谈录音逐字稿,并强调研究可信度的核心维度,为理解该群体物理治疗相关需求与挑战提供质性数据支持。 文件详解 文件名称:Demographic and socioeconomic...
    packageimg
  • 库尔德语立场检测数据集

    2025年11月27日   

    数据集概述 该数据集包含2024年3月至2025年2月从Rudaw网站采集的2174篇索拉尼库尔德语新闻文章,覆盖经济和政治领域,通过自动标注与人工验证结合的方式,为每篇文章标注目标主题(如“货币”“选举”)和立场标签(支持、反对、中立),标注信度高,附相关代码以确保可复现性。 文件详解 该数据集由多个文件和目录组成,具体说明如下: - 说明文档: -...
    packageimg
  • AARoN项目自然权利态度评估访谈逐字记录数据集

    2025年11月27日   

    数据集概述 本数据集包含AARoN项目的访谈逐字记录,核心内容为两组政治极化群体(研究生与本科生各八人)的两小时同伴主持小组讨论文本,讨论主题围绕自然权利(以水权为主),同时包含主持人脚本及项目研究设计概述。 文件详解 文件名称:Table 1_Moderator scripts for group discussions.pdf 文件格式:PDF...
    packageimg
  • 语篇片段类型与语言特征关联数据集

    2025年11月27日   

    数据集概述 本数据集基于生物学领域十篇全文论文构建,通过人工标注分析语篇片段类型与语言特征的关联。论文按特定标准选取,包含Voorhoeve相关、神经药理学及Genia语料库来源三类,为语言学与生物学交叉研究提供结构化标注数据。 文件详解 数据集包含八个文件,按功能分为四类,具体说明如下: - 语料库参考文件: -...
    packageimg
  • 话语近距化策略效果语料库与调查数据集

    2025年11月27日   

    数据集概述 该数据集支持“公共卫生危机话语中近距化的认知语用效果”研究,包含新冠疫情中文新闻语料库及两项实验调查数据,用于分析近距化策略的语言模式及对受众感知的影响。 文件详解 文件名称: Chinese news corpus on Covid-19_chracter Segmented.txt 文件格式: TXT (.txt) 内容说明:...
    packageimg
  • 诗歌情感识别语料库_PERC

    2025年11月27日   

    数据集概述 该数据集为诗歌情感识别语料库(PERC),针对现有情感分析词典未适配诗歌特征的问题构建。语料库基于印度《舞论》的"九种情感"(Navarasa)分类体系(包含爱、悲伤、愤怒、憎恨、恐惧、惊讶、勇气、喜悦、平静),收录1850-2016年印度诗人的诗歌文本及情感标注,由网络挖掘诗歌并经专家评估,填补诗歌九分类情感语料的空白。 文件详解...
    packageimg
  • 莫氏显微外科手术患者问题AI平台效用研究补充数据集

    2025年11月27日   

    数据集概述 该数据集是研究论文《人工智能平台在莫氏显微外科手术患者生成问题中的效用:比较素养分析与专家小组评估》的补充内容,包含AI平台与互联网生成的患者问题回答索引数据,为论文结论提供补充支持。 文件详解 目录结构:数据集包含一个主目录,所有文件位于该目录下 文件名称:Mendeley supplemental table I. Index of...
    packageimg
  • CNN_GNN_Text文本表示架构数据集

    2025年11月27日   

    数据集概述 本数据集是用于开发Web应用高效文本表示架构的研究项目组成部分,包含源代码与数据文件,适用于文本分类任务。数据集结构层次清晰,涵盖数据处理、模型层、训练管理等多类文件,为文本分类相关研究提供技术支持。 文件详解 该数据集包含代码文件、数据文件及配置文件等,具体说明如下: - 根目录文件: - requirements.txt:...
    packageimg
  • 乌兹别克语二元情感分类标注句子数据集

    2025年11月27日   

    数据集概述 该数据集是首个开放的乌兹别克语短句子二元情感分类标注语料库,包含四千六百七十六个句子,其中三千零四十二个为积极情感,一千六百三十四个为消极情感。文本采用现代乌兹别克语拉丁字母书写,以日常短句为主,平均长度约六个词。 文件详解 数据集文件: UZ_positive.txt: TXT格式文件,每行包含一个积极情感的乌兹别克语句子...
    packageimg
  • 亚马逊应用商店低评分应用用户评论数据集

    2025年11月27日   

    数据集概述 该数据集收集亚马逊应用商店64个低评分应用的79821条用户评论,覆盖14个应用类别。数据聚焦用户满意度低的应用,包含评分、评论标题及全文,为研究软件失败原因与用户负面反馈提供集中数据源。 文件详解 文件名称:dataset.csv 文件格式:CSV 字段映射: Stars:用户评分 Title_of_Review:评论标题...
    packageimg
  • Dataset_4A_8_翻译后修饰系统鲁棒性与参数地理解决方案文件_sigma_1_第8部分

    2025年11月27日   

    数据集概述 该数据集包含翻译后修饰系统鲁棒性与参数地理研究的解决方案文件,针对σ=1.0、参数空间为[0.0001,10000]^8的ILR采样参数点进行Paramotopy运行,共4个无扩展名文件,支持相关系统参数与鲁棒性分析。 文件详解 该数据集包含1个目录及4个文件,具体说明如下: - 目录名称: Dataset 4A.8 Solutions...
    packageimg
  • 特纳综合征皮肤肿瘤系统性综述补充文本

    2025年11月27日   

    数据集概述 本数据集为特纳综合征皮肤肿瘤系统性综述的补充文本,以PDF格式提供,包含与该主题相关的辅助性文本内容,为理解特纳综合征患者皮肤肿瘤的研究背景、方法细节或补充分析提供支持。 文件详解 文件名称:TS Cutaneous Neoplasms Supplemental Text.pdf 文件格式:PDF (.pdf)...
    packageimg