-
乌兹别克语命名实体识别数据集2015
数据集概述 该数据集为乌兹别克语命名实体识别模型的训练与评估构建,包含一万一千六百三十四个句子(九万九千四百零八个词),经人工标注,采用BIOES方案标记实体边界与类型,由乌兹别克语专家审核确保准确性与一致性。 文件详解 文件名称: courpusNER2015 (11k sentences).xlsx 文件格式: Excel (.xlsx)...
-
ANUBHUTI孟加拉地区语言情感分析综合语料库
数据集概述 该数据集包含两千句从标准孟加拉语人工翻译为四种主要地区方言(吉大港、诺阿卡利、锡尔赫特、迈门辛)的文本,以政治、宗教及中性内容为主,采用双标注方案:主题标注(政治、宗教、中性)与情感标注(七种情绪)。 文件详解 目录:ANUBHUTI A COMPREHENSIVE CORPUS FOR SENTIMENT ANA/ 文件列表:...
-
高等教育学生对ChatGPT的感知演变全球调查数据集2024_2025
数据集概述 该数据集为2024-2025学年全球高等教育学生对ChatGPT感知演变的调查结果,涵盖社会人口特征、使用情况、能力评价、监管伦理等多维度内容,共收集120个国家和地区22,963名学生的匿名反馈,为研究ChatGPT对高等教育的影响提供数据支持。 文件详解 数据文件: final...
-
人工智能元素融入外语教学研究论文2020
数据集概述 本数据集包含一篇研究论文,探讨将经典与创新教学技术结合现代技术手段应用于外语教学的可能性,并评估人工智能元素融入外语学习过程的前景。 文件详解 文件名称:2020Matuhin Mikheeva Provotorova Integration of artificial intelligence .PDF 文件格式:PDF (.pdf)...
-
语义指纹图谱示例_年度词汇内涵数据集
数据集概述 本数据集展示语义指纹图谱技术的应用,包含维基百科定义的二百零六个情绪相关词汇的语义指纹,以及二零一零至二零二三年间Dictionary.com评选的年度词汇数据,为分析词汇语义特征提供支持。 文件详解 文件名称: woty_data.csv 文件格式: CSV 字段内容:...
-
印尼语软件文本功能需求数据集
数据集概述 该数据集包含十五项印尼语及英语版本的软件文本功能需求,数据来源于小型医院、员工合作社及商店应用的软件需求规格说明书(SRS)文档,提取自各应用SRS中的用户故事,同时附带基于文本数据生成的BPMN流程图。 文件详解 该数据集包含一个PDF格式的文档文件,具体如下: - 文件名称: Textual Functional...
-
设计视角下在线评论标注手册与数据集
数据集概述 本数据集包含一套用于在线评论标注的操作手册,以及从Amazon.com获取的Kindle Paperwhite 3在线评论人工标注数据,涵盖人口统计信息、产品特征、功能可用性、情感词及情感倾向等维度,为后续自动化研究提供基础数据支撑。 文件详解 该数据集包含5个文件,具体说明如下: - 标注手册文件: - Annotation...
-
新冠病毒问答训练测试数据集
数据集概述 该数据集包含Naver Knowledge-iN用户提出的新冠病毒相关问题,分为训练集和测试集,以Excel格式存储,为新冠病毒相关问答任务的模型训练与测试提供数据支持。 文件详解 文件名称:COVID-19 train & test dataset/data.xlsx 文件格式:Excel (.xlsx) 文件内容:包含Naver...
-
斯拉夫语际理解中的语言模型_惊奇度与想象数据集
数据集概述 本数据集围绕斯拉夫语际理解展开,包含两项核心内容:一是捷克母语者合作翻译波兰语句子的有声思维协议转录文本,二是捷克读者完成波兰语完形填空翻译任务的响应数据及社会人口学信息,同时附带基于捷克语料库训练的语言模型生成的惊奇度分数数据。 文件详解 文件名称: webresults_cloze_publication.xlsx 文件格式:...
-
Apache_Lucene开发IRC频道完整聊天记录数据2010_2017
数据集概述 本数据集包含Apache Lucene项目开发团队在IRC(互联网中继聊天)频道#lucene-dev中的完整聊天记录,时间跨度为2010年4月15日至2017年6月25日。数据记录了开发者在频道内的所有对话内容,包括用户加入/退出信息、频道模式变更以及技术讨论等,是研究开源软件协作开发过程的原始通信资料。 文件详解 Apache...
-
孟加拉语机器打印文档数据集
数据集概述 该数据集是一个机器打印孟加拉语文档的资源库,用于区分手写与机器打印文档,优化光学字符识别(OCR)应用的处理方法。数据集包含压缩文件,为研究机器打印文档的OCR技术提供基础数据支持。 文件详解 文件名称: BengaliPrintDB database.zip 文件格式: ZIP压缩包(.zip) 文件内容:...
-
Anais_Compolítica_2017_论文与链接数据集
数据集概述 本数据集包含2017年Compolítica会议的论文信息及相关链接,记录了论文的分类、标题、作者、参考文献等核心内容,为研究该会议的学术成果提供结构化数据支持。 文件详解 文件名称: Artigos_compolitica_coleta.csv 文件格式: CSV (.csv) 字段映射: id: 论文唯一标识 GT: 论文分类(如"GT...
-
农业投入品价格与情感评估混合数据集
数据集概述 本数据集为农业投入品领域的混合数据集,包含产品列表与农户评论两部分核心内容,支持基于自然语言处理的价格分析与情感评估,旨在为棉花作物病害防控及产品推荐的AI驱动方法提供数据支撑。 文件详解 文件名称:AgReview - Hybrid Dataset for NLP-based Price and/cotton Disease...
-
Week1_pretest议论文与问题解决型作文数据集
数据集概述 本数据集包含Week1-pretest阶段的议论文与问题解决型作文,共36份文档,涵盖不同主题与作者的写作练习内容,为分析写作任务表现提供基础数据。 文件详解 目录结构:仅包含Week1-pretest/1个目录,目录深度为1 文件类型与数量: .docx格式文件:33个(占比约百分之九十一),如Topic...
-
学术问答聊天机器人数据集
数据集概述 该数据集基于大学学术手册内容构建,包含学术政策、行政流程及学生服务相关的问答对,经改写扩展后适用于学术服务类生成式聊天机器人开发,支持大语言模型微调。 文件详解 文件名称:qna-academic-chatbot.zip 文件格式:ZIP(.zip)...
-
FDA加速审批文件监管信号数据集
数据集概述 该数据集包含美国食品药品监督管理局(FDA)授予加速审批(AA)的药品相关监管文件,覆盖224个申请级文件集,包含原始文档及提取的文本内容,为后续信号提取和分析提供基础数据。 文件详解 数据集主要包含3个压缩文件,具体说明如下: - 目录文件: -...
-
全球气候变化教育摘要情感分析数据集2015_2024
数据集概述 本数据集包含2015至2024年发表的777篇气候变化教育领域同行评审摘要的元数据与情感分析结果,覆盖情感极性、主观性、修辞风格分类、脆弱性评分等维度,为相关研究提供支持。 文件详解 文件名称: Speaking to the crisis. Database 1.xlsx 文件格式: XLSX(Excel表格) 内容说明:...
-
DIY维修视频多模态YouTube数据集
数据集概述 该数据集包含六千零一十五条YouTube DIY维修教程视频,涵盖结构化元数据、转录文本、观众评论、频道信息及多轮人工标注的教学内容,涉及十六个DIY子领域,为教学内容分析提供多模态数据支持。 文件详解 核心数据文件: video_metadata.csv:...
-
BBC4_五类主题新闻文本分类完整数据集
数据集概述 本数据集包含涉及五个不同主题的系列文本集合,主要用于文本分类和自然语言处理研究。数据集以单一压缩文件形式提供,包含BBC新闻机构相关的文本内容,适用于构建主题分类模型和文本分析任务。数据规模适中,结构简洁,便于研究人员快速获取和使用。 文件详解 主数据文件 文件名称:bbc4.zip 文件格式:ZIP压缩文件...
-
孟加拉语实数语音识别音频数据集
数据集概述 该数据集是一个音频文本平行语料库,包含孟加拉语实数的录音及其对应文本,专为孟加拉语语音识别设计。涵盖五位发言人的录音,词汇仅包含孟加拉语实数相关表达。 文件详解 文件名称: Bangla Real Number Audio- Dataset(Text-and-Audio)-mini-Speech-to-Text.zip 文件格式: ZIP...



