找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 阿尔茨海默病早晚期叙事言语语言特征数据集

    2025年11月28日   

    数据集概述 本数据集包含阿尔茨海默病早晚期患者叙事言语语言特征研究的全部统计数据,涉及句子类型、中位数检验、图形及统计分析等相关文件,为分析该疾病不同阶段语言表现提供数据支持。 文件详解 句子类型分析文档:Sentence types.docx,格式为docx,内容涉及叙事言语中的句子类型相关分析。 中位数检验文档:Median...
    packageimg
  • 语言模型说服效果探索实验代码集

    2025年11月28日   

    数据集概述 该数据集包含用于探索大型语言模型与视觉语言模型说服效果的所有实验代码,为相关研究提供可复现的技术实现资源。 文件详解 该数据集由一个压缩文件组成,具体说明如下: - 文件名称: Codes.zip - 文件格式: ZIP压缩包(.zip) - 文件内容: 包含所有实验的代码文件,具体内容需解压后查看,未提供预览信息 适用场景...
    packageimg
  • 诺贝尔奖获奖论文引用语境数据集1995_2017

    2025年11月28日   

    数据集概述 该数据集包含1995-2017年诺贝尔奖获奖论文的引用语境数据,引用语境来源于Elsevier发表的带全文XML的论文。数据集关联了获奖者信息、获奖论文及引用论文的标识,并记录了引用句子、所在章节和引用年份等内容,为研究学术影响力提供支持。 文件详解 文件名称: nobel_prize_citation_context.csv 文件格式:...
    packageimg
  • 香港大澳村实地笔记与个人通讯摘要2025年1月

    2025年11月28日   

    数据集概述 本数据集包含2025年1月关于香港大澳村的实地访谈笔记摘要及个人通讯文本,核心围绕大澳村棚屋相关话题,记录了与前香港地政总署人员及棚屋建造商之子的交流内容。 文件详解 文件名称:Elkin_Alan Lo Interview_Field Notes Summary.pdf 文件格式:PDF 内容:Daniel...
    packageimg
  • 英语旁遮普语对齐名词数据集

    2025年11月28日   

    数据集概述 该数据集包含英语与旁遮普语的名词对齐数据,以压缩文件形式存储,为研究两种语言名词的对应关系提供基础数据支持。 文件详解 文件名称:English Punjabi Noun Data.rar 文件格式:RAR压缩文件(.rar) 内容说明:压缩包内包含英语与旁遮普语名词对齐的相关数据,具体字段及内容需解压后查看,未提供预览信息。 适用场景...
    packageimg
  • 蒙古语词干网络数据集

    2025年11月28日   

    数据集概述 该数据集包含基于蒙古语语料库构建的三个Neo4j数据库,语料库来源分为文学、政府文件和新闻三类,以.dump格式存储,为蒙古语词干网络相关研究提供数据支持。 文件详解 文件名称:liter.dump 文件格式:.dump 内容说明:基于文学类蒙古语语料库构建的Neo4j数据库文件 文件名称:gov.dump 文件格式:.dump...
    packageimg
  • 孟加拉语攻击性与致命文本数据集

    2025年11月28日   

    数据集概述 该数据集为用于识别和分类文本攻击性的孟加拉语数据集,包含四千零二十七条正式与非正式文本,按仇恨言论、破坏行为、暴行、无攻击性四类标注,附英文翻译,经多阶段预处理及双标注员标注、专家复核,为孟加拉语自然语言处理社区提供内容审核研究支持。 文件详解 文件名称:BOLT.xlsx 文件格式:Excel (.xlsx) 字段映射: Final...
    packageimg
  • 越南新闻多任务学习数据集1_0

    2025年11月28日   

    数据集概述 该数据集包含三万二千五百二十一篇越南新闻文章,专为自然语言处理领域的多任务学习应用设计,聚焦摘要生成与关键词提取任务。数据以JSON、CSV及XLS格式存储,每条记录含文章ID、标题、正文、摘要、关键词及主题字段,为多任务模型的开发与基准测试提供支持。 文件详解 该数据集由七个文件组成,具体说明如下: - 说明文档: -...
    packageimg
  • 吉隆坡旅游博客数据集

    2025年11月28日   

    数据集概述 该数据集包含吉隆坡旅游博客相关的文本与标注数据,分为训练、测试及相关文件三个文件夹,涵盖原始旅游文本与带空间三元组标注的XML文件,用于空间关系提取研究。 文件详解 该数据集由三个文件夹组成,具体说明如下: - Training文件夹: - raw training...
    packageimg
  • 自动化计算场景构图算法的短视频制作数据集

    2025年11月28日   

    数据集概述 本数据集围绕自动化计算场景构图算法的短视频制作流程构建,涵盖文本预处理、实体识别、媒体检索、时间线分析及文本媒体整合等核心环节,包含输入文本、处理结果及实体上下文等相关数据文件,为短视频自动化生成研究提供支持。 文件详解 该数据集包含多个目录和文件,具体说明如下: - 输入目录文件 (位于 Short Video Production...
    packageimg
  • 昆布脉搏_神圣集会的情感回响数据集

    2025年11月28日   

    数据集概述 该数据集包含2013-2025年(除2014、2015、2020年外)昆布节期间,从社交媒体X(原Twitter)和YouTube收集的49,425条多语言用户生成内容,经情感标注,适用于文化事件情感分析与多语言NLP研究。 文件详解 压缩文件: KumbhPulse.zip:ZIP格式压缩包,包含按年份划分的CSV文件。...
    packageimg
  • 第一语言与第二语言句法启动语义独立性研究数据集

    2025年11月28日   

    数据集概述 该数据集围绕句法启动实验展开,探究第一语言(L1)和第二语言(L2)中,介词短语(PP)语义角色是否影响PP附着句法结构的解析。实验通过相同语义角色(within-role)和不同语义角色(cross-role)的句子列表,分析句法启动效应的差异。 文件详解 文件名称: Data.xlsx 文件格式: Excel (.xlsx) 文件内容:...
    packageimg
  • Kenneth_Udut_1989_2016年线上写作语料库

    2025年11月28日   

    数据集概述 该数据集收录了Kenneth Udut在1989至2016年间的线上写作内容,共34977条记录,涵盖邮件、博客、论坛评论等多种形式,每条记录单独成行,移除了回车换行符,为研究个人线上写作轨迹提供数据支持。 文件详解 文件名称:ken_brain_line-by-line.xls 文件格式:XLS(Excel表格)...
    packageimg
  • 临床笔记知识增强混合抽取式摘要管道数据集

    2025年11月28日   

    数据集概述 该数据集包含四千九百九十九条医疗转录文本,围绕临床笔记知识增强混合抽取式摘要管道构建,涉及过敏/免疫学等医疗专科的转录内容,为临床文本摘要研究提供数据支持。 文件详解 文件名称:A Knowledge-Enhanced Hybrid Extractive Summarizati/mtsamples.csv 文件格式:CSV(.csv)...
    packageimg
  • ChatGPT的回应与分析数据集

    2025年11月28日   

    数据集概述 本数据集记录了普通话学习者与ChatGPT进行语言学习互动的录音及分析,包含学习者提问、ChatGPT回应及对应分析结果三部分内容,为研究AI辅助语言学习提供数据支持。 文件详解 文件名称: Responses of ChatGPT and Analysis.pdf 文件格式: PDF (.pdf) 内容结构:...
    packageimg
  • 可持续未来产消行为分析文本列表数据集

    2025年11月28日   

    数据集概述 本数据集围绕“产消行为”(用户参与产品价值创造的现象)展开,包含一项半系统性文献回顾的最终分析文本列表,聚焦产消行为对个体及环境的潜在影响,为研究经济与可持续发展相关议题提供文本资源支持。 文件详解 文件名称:Prosuming for a sustainable future_List of texts.pdf 文件格式:PDF...
    packageimg
  • 女性能动性与冲突后恢复叙事媒体文本挖掘数据集

    2025年11月28日   

    数据集概述 本数据集围绕女性在冲突后恢复叙事中的能动性展开,通过自然语言处理、语义嵌入等技术分析媒体文本,探究女性作为行动主体在调解、重建等社会进程中的叙事呈现,为相关政治与文化研究提供数据支持。 文件详解 核心数据文件: Table with Runs and CSVs.xlsx:Excel文件,可能包含不同分析运行的结果数据与CSV格式数据汇总...
    packageimg
  • 雾计算谷歌学术数据库检索结果数据集2017

    2025年11月28日   

    数据集概述 该数据集包含截至2017年11月15日,在谷歌学术数据库中检索“Fog Computing”(雾计算)一词得到的全部结果。数据经Publish or Perish获取并清洗,已去除错误、无效及重复结果,适用于基于论文标题的文本分析,但作者、出版商等信息仍需进一步处理。 文件详解 文件名称: FogComputing_GS_2017.csv...
    packageimg
  • 孟加拉地区方言仇恨言论检测数据集BIDWESH

    2025年11月28日   

    数据集概述 该数据集是首个针对孟加拉地区方言(诺阿卡利、吉大港、巴里萨尔)的仇恨言论检测基准语料库,含九千一百八十三个手动翻译标注实例,覆盖仇恨/非仇恨标签及十三类仇恨类型、七类目标群体,支持低资源方言语境下的多维度分析。 文件详解 BIDWESH...
    packageimg
  • 孟加拉语新闻分类数据集_BARD语料库

    2025年11月28日   

    数据集概述 该数据集包含从孟加拉国主流新闻平台收集的2500篇孟加拉语新闻文章,分为经济、娱乐、国际、体育、国内五个平衡类别,每类500篇,支持孟加拉语文本分类、自然语言处理及相关机器学习任务。 文件详解 文件名称:Bangla_Data_Artical_Dataset.zip 文件格式:ZIP压缩包...
    packageimg