-
母语与非母语者比喻短语理解对比研究数据
数据集概述 本数据集包含用于研究母语与非母语者对比喻短语(包括习语和隐喻)理解差异的实验材料。数据摘自Carrol、Littlemore和Dowens的研究报告,核心内容为实验使用的短语及其含义,同时包含研究中使用的三个替代含义选项。数据集旨在为语言认知研究提供标准化的实验刺激材料。 文件详解 文件名称: Carrol-Littlemore-...
-
混杂代码混沌_多标签孟加拉英语与孟加拉语毒性分析语料库
数据集概述 该数据集针对NLP研究中常被忽视的孟加拉英语(Benglish,孟加拉语与英语混杂的罗马字母书写形式)毒性检测缺口,提供人工收集的多标签数据集,含一万零二百三十四条社交媒体评论,均等分为有毒和无毒类别,覆盖十种标注类型,助力相关毒性分析研究。 文件详解 该数据集包含一个目录及两个文件,具体说明如下: - 目录: Code-mixed...
-
手机产品评论文本标注数据集
数据集概述 该数据集包含从京东平台爬取的152款手机的产品评论数据,共六万七千八百四十七条中文评论文本。每条评论被标注为与产品相关(rel)或不相关(irr),需使用中文简体GB2313编码打开文件,为手机产品评论的相关性分析提供标注数据支持。 文件详解 文件名称: product review text.csv 文件格式: CSV (.csv)...
-
孟加拉语文本复述语料库
数据集概述 该数据集为孟加拉语复述句对数据集(BPDS),包含被标记为复述(含义相同)或非复述(含义不同)的孟加拉语句子对。数据来源于书籍、报纸、文学文章等多种孟加拉语资源,覆盖广泛主题与写作风格,适用于自然语言处理相关研究。 文件详解 文件名称: Bangla Text Paraphrase.xlsx(位于Bangla Text Paraphrase...
-
多明尼卡斯外交政策智库文本挖掘语料库
数据集概述 该数据集是一个用于文本挖掘的文档集合(语料库),核心内容围绕外交政策智库相关文本的分析展开,包含8个文件,以Excel表格和文本文档为主,为外交政策智库的文本分析研究提供基础数据支持。 文件详解 数据文件(.xlsx格式,共7个)...
-
GPT_4o评估可靠性与有效性实验数据集
数据集概述 本数据集为一项双组对照实验的结果,旨在系统评估不同提示策略下GPT-4o的评估可靠性与有效性,为研究大语言模型评估性能提供数据支持。 文件详解 文件名称: data.xls 文件格式: Excel (.xls) 存储路径: 123/data.xls 字段映射: 未提供文件内容预览,无法获取字段信息 适用场景 大语言模型评估研究:...
-
成人言语学习不同阶段感官可塑性轨迹追踪行为数据集
数据集概述 本数据集包含Reetzke等人研究成人言语学习不同阶段感官可塑性轨迹的行为数据,分为声调分类和知觉识别两大任务,覆盖中英文参与者在四个学习阶段的实验数据、刺激材料及说明文档,为言语学习与感官可塑性研究提供支持。 文件详解 该数据集包含两个核心文件夹及下属子目录,具体说明如下: - 1_Tone...
-
叙事预测研究数据集
数据集概述 该数据集是论文《Narrative Forecasts》的在线附录、数据及代码仓库,包含回归分析代码、情感分析代码、主题编码数据等文件,为复现论文研究提供支持。 文件详解 该数据集包含10个文件,具体说明如下: - 文档与说明文件: - README.txt:文本格式,描述仓库内代码及主回归所用数据集的说明文件 -...
-
孟加拉语自杀文本语料库
数据集概述 该数据集为孟加拉语自杀文本语料库,包含从Facebook、在线博客、YouTube评论等渠道收集的5100条标注文本,按自杀情绪分为无风险、低风险、高风险三类,经专家评审与交叉校验,可用于分析自杀情绪及开发自然语言处理应用。 文件详解 文件名称: BanglaSuicidalTextCorpus.xlsx 文件格式: .xlsx 内容说明:...
-
基于文档_词汇组合图的维基百科搜索数据集
数据集概述 本数据集是信息学专业学士学位论文的配套数据,围绕“文档-词汇组合图在维基百科搜索中的应用”展开,包含实验相关的多个压缩文件,为研究该搜索方法提供数据支持。 文件详解 该数据集包含6个压缩文件,均位于"Using Combined Document-Word Graphs for Wikipedia Search/"目录下,具体如下: -...
-
宗教极端主义文本语料库
数据集概述 该数据集是从社交网络收集的宗教极端主义文本语料库,主要来源于独立国家联合体(CIS)和中亚地区青年常用的社交平台,为相关文本分析提供基础数据支持。 文件详解 文件名称:Religious extremism and neutral text corpus.zip 文件格式:ZIP(压缩包)...
-
印尼远程医疗应用用户评论情感分析数据集
数据集概述 本数据集收集了印尼四家远程医疗应用(Alodokter、Halodoc、Klikdokter、Yesdok)的用户评论,用于情感分析任务,可将反馈分类为正面、负面或中性情感,旨在通过理解用户视角支持远程医疗服务质量改进。 文件详解 该数据集包含四个CSV格式的评论文件,具体说明如下: - 按应用划分的评论文件: -...
-
FN_REQ_FrameNet语义框架标注的自然语言需求数据集
数据集概述 该数据集是通过FrameNet语义框架方案进行半自动标注的自然语言需求数据集,包含标注指南文档,为研究自然语言需求的语义标注提供数据支持。 文件详解 文件名称: FN-REQ-V1.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含使用FrameNet语义框架标注的自然语言需求数据,以及标注指南文档《Annotation...
-
英语_法语和西班牙语显著性评级研究数据集
数据集概述 本数据集包含英语、法语和西班牙语显著性评级研究的核心数据,记录了非专业评分者对三种语言对话语音样本的显著性评级,以及对应的词汇层面语音、句法、语篇和声学属性,为多语言显著性评级的基础研究提供支持。 文件详解 文件名称:RPT_English_All_Data.xlsx 文件格式:Excel(.xlsx)...
-
天生全球化企业Web_of_Science数据集
数据集概述 本数据集基于Web of Science数据库,通过关键词检索收集了1994至2016年间发表的453篇与天生全球化企业相关的文献,涵盖国际新企业、快速国际化等研究主题,为该领域的文献分析提供基础数据。 文件详解 文件名称: 453plain text-20-09-2017.txt 文件格式: TXT(.txt) 内容说明:...
-
C_代码习语挖掘项目数据集
数据集概述 该数据集包含从GitHub开源代码仓库快照中提取的文件,用于定量评估SAGED方法的推理步骤。SAGED方法相关研究见于论文《Automating the Development of API-Based Generators Using Code Idioms Mining》。 文件详解 文件名称: C# projects for...
-
塞尔维亚钣金制造业网络语义词汇库数据集
数据集概述 本数据集是研究项目SM01的语言资源成果,包含基于塞尔维亚钣金制造业语料库构建的语义词汇库及相关辅助资源。词汇库涵盖概念实体、词形实体及关联关系统计数据,支持知识抽取相关爬虫工具应用,为制造业领域语义分析提供结构化数据基础。 文件详解 语义词汇库文件: lex_20170923_003408.rdf:RDF格式文件,存储语义词汇库数据...
-
情绪_心境与情感调查数据集
数据集概述 本数据集包含情绪、心境与情感相关的调查响应数据,为相关研究提供基础数据支持,涉及人口统计学信息、心理量表得分及情感文本等内容。 文件详解 文件名称:Emotions, Mood and Sentiments/survey_data.csv 文件格式:CSV 字段示例:...
-
印尼语DISC人格框架关键词词汇数据集
数据集概述 本数据集构建了印尼语环境下对应DISC人格框架(支配性、影响性、稳定性、尽责性)的关键词词汇,包含从DISC指南提取的种子关键词及通过Kateglo印尼语词库API获取的一级、二级同义词,经心理学专家协助验证,为印尼语人格特征分析提供基础词汇支持。 文件详解 种子关键词文件: AMIKOM-...
-
自动驾驶出租车情感分析数据集178k
数据集概述 本数据集包含2022年5月至2024年8月期间,从中国五大社交媒体平台(哔哩哔哩、抖音、快手、小红书、微博)采集的177,890条与“Apollo Go”相关的评论数据,涵盖评论时间、内容、用户昵称、位置及发布平台等信息。 文件详解 目录: robotaxi_senti_178k/ 文件名称:...



