-
Twitter用户对ChatGPT作为营销支持平台的情感分析数据集
数据集概述 本数据集围绕Twitter用户对ChatGPT作为营销支持平台的情感分析展开,采用朴素贝叶斯方法研究用户态度。数据集包含相关情感分析数据,为探索AI工具在营销领域应用的用户反馈提供支持。 文件详解 文件名称: dataset_twitter Label.xlsx 文件格式: Excel (.xlsx) 内容说明:...
-
Promset自然语言转PromQL翻译标注数据集
数据集概述 该数据集为自然语言处理研究提供支持,聚焦系统监控领域,包含4350组人工标注的英文描述与PromQL表达式配对数据,用于训练和评估大语言模型实现自然语言到PromQL的翻译,适用于智能监控查询生成等场景。 文件详解 文档文件: Promset An annoted dataset for translating...
-
数学中心Akademgorodok第一届研讨会有毒评论数据集
数据集概述 该数据集包含数学中心Akademgorodok第一届研讨会期间收集的带标签俄语有毒评论样本,数据来源于VK社交网络评论,标注了淫秽词汇存在、言语方向、道德信念三个维度,标注工作由专家社区代表指导完成。 文件详解 文件名称: MCA Workshop - Toxic comments/combined.csv 文件格式: CSV 字段映射:...
-
PHQ_9学生抑郁问卷机器学习分析数据集
数据集概述 本数据集包含400名学生对PHQ-9抑郁问卷的文本回答记录。PHQ-9是临床常用的抑郁症状评估工具,包含9个问题,评估过去两周内的抑郁症状,涵盖情绪、精力、睡眠、食欲及自伤念头等方面。每个问题的评分从0(完全没有)到3(几乎每天),总分范围为0-27分,对应不同的抑郁严重程度分级。数据集旨在支持基于文本分析的自动化抑郁检测机器学习模型开发。...
-
巴斯克语时间信息标注系统bTime资源数据集
数据集概述 本数据集包含巴斯克语时间信息标注系统bTime的相关资源、结果及输出。bTime是首个遵循ISO-TimeML标准的巴斯克语时间信息标注系统,采用机器学习与规则相结合的混合架构,为巴斯克语时间信息处理研究提供支持。 文件详解 该数据集包含多个目录和文件,具体说明如下: - 核心目录与文件类型: - Corpus-...
-
亚马逊雨林野火谣言检测数据集2019
数据集概述 本数据集包含2019年亚马逊雨林野火相关的Twitter数据,收集时间为2019年8月21日至9月27日,通过指定标签筛选。数据核心为标注的谣言检测结果,共1392条观测值,其中184条(约13%)被标注为谣言,同时包含推文文本及元数据,支持谣言检测模型开发。 文件详解 文件名称:amazonfires_rumordataset.csv...
-
电子学英汉词典数据集_V2
数据集概述 该数据集为电子学领域的英汉对照词典,包含超过三万一千条专业术语,以Excel格式存储,为电子学相关的术语翻译与研究提供基础数据支持。 文件详解 文件名称: English-Greek Lexicon of Electronics_V2/Lexicon_V2.xlsx 文件格式: XLSX (.xlsx) 内容说明:...
-
基于朴素贝叶斯的谷歌应用商店Bank_Jago应用用户评论分析数据集
数据集概述 该数据集包含谷歌应用商店上Bank Jago数字银行应用的用户评论数据,经清洗后保留1432条高质量印尼语评论,涵盖界面、安全等维度,已人工标注正负情感并通过朴素贝叶斯算法分析,可用于情感分析及数字银行服务质量研究。 文件详解 文件名称: Dataset Naïve Bayes-Based Data Analysis on Google...
-
计算叙事生成库构建数据集
数据集概述 本数据集为计算叙事生成系统构建提供支持,包含用于自动视频生成的场景关键词数据、链接数据及关键词提取与语义聚类代码,聚焦叙事结构建模与计算流程开发,助力新型叙事结构生成研究。 文件详解 数据集包含6个数据文件和1个代码文件,具体说明如下: - 场景关键词数据文件(CSV格式,共4个): - Scene Keyword Data form...
-
巴西葡萄牙语与巴西手语双语对齐数据集
数据集概述 该数据集包含六万八千零二十九条巴西葡萄牙语与巴西手语(Libras)符号文本的对齐句子对,以CSV格式存储,支持机器翻译、手语技术及无障碍通信系统相关研究。 文件详解 文件名称:libras_bilingual_dataset/dataset.csv 文件格式:CSV(UTF-8编码) 字段映射: portuguese:巴西葡萄牙语句子...
-
M_Pesa移动支付服务对话转录完整数据
数据集概述 本数据集包含与M-Pesa移动支付服务相关的转录文本数据,来源于一篇学术论文中使用的转录材料。数据集仅包含一个文档文件,记录了M-Pesa服务的对话或文本内容转录,可用于分析移动支付服务的语言特征和用户交互模式。 文件详解 Group M-Pesa Transcriptions.docx 文件格式:DOCX 字段映射介绍:该文档包含M-...
-
视频自动合成框架数据集
数据集概述 本数据集是一个视频自动合成框架,基于输入脚本(如情书),通过Python代码处理生成计算场景及元JSON文件,实现视频合成序列构建与时间线分析。包含Flask开发的DAR系统,用于评估LLM生成的SQL查询质量,支持自动性能参数计算,由多个代码文件、应用包、数据文件和演示视频组成。 文件详解...
-
西班牙语_俄语双向词典数据集
数据集概述 本数据集为西班牙语与俄语的双向词典,包含约三万条词汇条目,以PDF格式呈现,可用于西班牙语和俄语的词汇查询与互译参考。 文件详解 文件名称: 2006 Esp-Rus_Rus-Esp Dictionary-.pdf 文件格式: PDF 内容说明:...
-
语义建模与本体集成数据集
数据集概述 该数据集是多领域软件需求的结构化汇编,涵盖非功能需求(NFR)、医疗、汽车和金融系统四大领域,共包含超过一万一千八百条条目,支持需求分类、可追溯性、不一致检测及自然语言处理模型领域适配等研究。 文件详解 核心需求数据文件:...
-
生物医学文献中鼠类温度相关实验分析数据集
数据集概述 该数据集基于约110万篇开放获取生物医学文献,通过提取单位与测量值(U&M)结合上下文信息筛选出299篇相关论文,聚焦小鼠实验中化合物暴露与不同饲养温度对肿瘤体积/重量的影响,记录温度范围、年份等核心信息。 文件详解 文件名称:mice_pii_temperature.txt 文件格式:TXT...
-
与AI的性相关内容数据集
数据集概述 本数据集包含与AI相关的性内容研究数据,涉及不同AI模型的提示与响应记录及分级评估文件,支持对AI生成内容的分析与评估,为相关研究提供数据基础。 文件详解 主文件目录(sex_with_ai/): All Prompt & Resp.xlsx:Excel格式文件,可能包含所有AI模型的提示与响应原始数据...
-
跨多社交网络的文本内容身份解析方案数据集
数据集概述 本数据集是基于文本内容的多社交网络身份解析方案研究数据,包含训练集和测试集两部分。核心内容为Twitter源 profile 与Facebook目标 profile 的特征对,标注匹配/非匹配状态,用于身份解析模型的训练与验证。 文件详解 该数据集包含一个压缩包文件,具体说明如下: - 文件名称: Datasets.zip - 文件格式:...
-
乌兹别克语形态分析数据集_含英文翻译
数据集概述 该数据集包含三千余个乌兹别克语词形,每个词形均标注有词根、词缀及词性信息,并配有英文翻译。数据以Excel表格形式存储,列结构清晰,便于分析与建模,为乌兹别克语形态学研究提供基础数据支持。 文件详解 文件名称: Dict (+Eng translation).xlsx 文件格式: Excel (.xlsx) 字段映射: 第一列:词形序号...
-
豪萨语情感标注推文多标签情感分类数据集
数据集概述 该数据集包含一万九千七百五十七条豪萨语推文,每条标注十一种情感(愤怒、悲伤、厌恶、恐惧、惊讶、喜悦、信任、乐观、悲观、期待、中性),用于多标签情感分类任务,填补低资源语言自然语言处理领域空白,支持复杂情感检测模型训练。 文件详解 文件名称: HaEmoC_V1.csv 文件格式: CSV 字段映射: ID:...
-
AI杜威十进制分类器对肯尼斯_乌杜特26年在线书面输出语料库分析结果
数据集概述 本数据集记录了AI杜威十进制分类器对肯尼斯·乌杜特1989-2015年26年间9533篇在线书面输出语料的分析结果,通过计算主题概率以识别其可能具备写作资格的领域,为研究个人长期文本输出的主题分布提供数据支持。 文件详解 文件名称: kenbrain_normalizing3.ods 文件格式: OpenOffice电子表格(.ods)...



