数据集 - 海数据

Mobile_Legends与Wild_Rift谷歌应用商店评论数据集

2025年11月27日

数据集概述本数据集包含从谷歌应用商店（Google Play）采集的Mobile Legends: Bang Bang（MLBB）和Wild Rift（WR）两款移动游戏的用户评论数据。数据涵盖用户提交的文本评论及其关联元数据，如评分、评论日期等，适用于情感分析、自然语言处理及移动游戏用户行为研究等领域。数据集共包含两份文件。文件详解...

ZIP

库尔德索拉尼语讽刺检测自动化数据集

2025年11月27日

数据集概述该数据集是针对低资源语言库尔德索拉尼语构建的讽刺检测自动化数据集，包含一万六千余条文本条目，标注了二元讽刺分类及来源、匹配规则、情感类别等元数据，适用于低资源语言自然语言处理研究。文件详解数据集文件（位于KuSarcasm Automated Kurdish Sorani Sarcasm Dataset...

ZIP

雌性猫直肠与角膜温度数据集

2025年11月27日

数据集概述该数据集记录了妊娠状态对雌性猫角膜温度（CT）和直肠温度（RT）的影响，包含30只健康家猫（15只妊娠、15只发情间期）的热成像数据、温度读数、生殖状态分类、妊娠期天数及阴道涂片结果，支持非侵入性温度监测相关研究。文件详解文件名称：Data.xlsx 文件格式：Excel（.xlsx）核心内容：包含雌性猫的双眼热成像数据（FLIR...

ZIP

情书情感分析_四种工具比较评估数据集

2025年11月27日

数据集概述本数据集围绕情书情感分析展开，对比评估TextBlob、Vader、Flair和Hugging Face Transformer四种工具的表现。包含人工标注的情感分析结果与工具输出数据，为研究复杂私密文本的情感识别方法提供支持。文件详解该数据集包含一个目录下的四个文件，具体说明如下： - 目录: Sentiment Analysis...

ZIP

KUET_Whispers_孟加拉语英语匿名低语文本数据集

2025年11月27日

数据集概述本数据集是一个精心整理的孟加拉语和英语文本集合，包含2485条来自KUET Whispers在线社区的匿名提交。每条记录均为简短、匿名且富含情感的低语式文本片段，反映了用户在非正式场景下的自然低语交流。数据集提供原始文本和清洗后版本，并附带时间戳、匿名发送者标签、帖子互动数据（点赞、评论）及语言标签等元数据。文件详解...

ZIP

博士学位论文中的短语动词_基于语料库的母语与二语学术写作比较数据集

2025年11月27日

数据集概述该数据集围绕博士学位论文中的短语动词展开，通过语料库方法对比母语（L1）与二语（L2）学术写作者的使用差异，包含两类写作者使用的短语动词类型、定义、句法分类及示例语境等核心信息。文件详解文件名称：PV Types.xlsx 文件格式：Excel（.xlsx）...

ZIP

阿根廷语言讨论转录数据集

2025年11月27日

数据集概述该数据集收录了2018年起阿根廷公开媒体中以西班牙语进行的语言讨论转录内容，重点围绕包容性语言展开，包含电视及电台访谈的文本记录，为研究阿根廷语言议题提供原始资料。文件详解文件名称：Eduardo Feinman-Natalia Mira. Entrevista televisiva. A24. Transcripción.pdf...

ZIP

基于主题的英文维基百科与推特用户数据集

2025年11月27日

数据集概述本数据集收集自英文维基百科与推特平台，包含经预处理的维基百科文章文本及推特用户数据。预处理步骤包括词形还原、俚语转换为标准英语、去除停用词，以及维基百科标记语言处理，最终生成纯文本格式内容。文件详解文件名称: Wiki_En.rar 文件格式: RAR压缩包 (.rar) 内容说明:...

ZIP

机器翻译文本带有人工标注与自动指标评估数据集

2025年11月27日

数据集概述该数据集包含英文新闻文本经统计与神经机器翻译系统译成斯洛伐克语的结果，附有人工标注的五类错误二进制记录及六十八种自动评估指标得分，支持基于自动指标预测错误类别的模型开发。文件详解文件名称: Dataset.csv 文件格式: CSV 字段映射: id_source: 源文本标识 SRC: 英文源文本 id_document: 文档标识...

ZIP

印尼虚假新闻检测数据集

2025年11月27日

数据集概述本数据集包含印尼语虚假新闻检测相关的标注数据与实验文档，涵盖不同规模的新闻文本、标注流程记录及朴素贝叶斯分类器的实验结果，为印尼语虚假新闻自动检测研究提供支持。文件详解 250 news with valid hoax label.csv：CSV格式文件，包含250条印尼语新闻文本及对应的“虚假/有效”标签 250 news...

ZIP

MedBanglaTrust3_孟加拉语可解释可信AI健康建议数据集

2025年11月27日

数据集概述该数据集为孟加拉语（Bangla）专家验证的标注数据集，包含六千六百六十条AI生成的健康建议回复，按可信度分为高度相关、部分相关、不相关三类，用于低资源语言环境下可信AI健康建议的机器学习与自然语言处理研究。文件详解文件名称: MedBanglaTrust3.xlsx 文件格式: XLSX（Excel表格）核心内容:...

ZIP

arXiv_量子计算社会科学文献电子学习推荐数据集

2025年11月27日

数据集概述本数据集来源于arXiv平台，包含与量子计算和社交科学相关的系列科学文献。数据集由两个CSV文件组成，分别提供了经过处理的文献摘要信息和完整的文献元数据。数据内容涵盖文献标题、作者、发布时间、摘要、PDF内容及分类等信息，适用于电子学习推荐系统的开发与研究。文件详解处理后的摘要文件...

ZIP

电影细节长期记忆数据集

2025年11月27日

数据集概述该数据集围绕电影细节的长期记忆研究，包含电影组（59样本）和非电影组（22样本）数据，以及双语句子文本，为相关记忆研究提供基础数据支持。文件详解数据文件: DATASET.xlsx: Excel格式文件，包含电影组（N=59）和非电影组（N=22）的实验数据文本文件: Sherlock_Sentences_ITA+ENG.docx:...

ZIP

Strava应用用户评论情感分析数据集

2025年11月27日

数据集概述该数据集包含从Google Play商店收集的Strava应用用户评论数据，涵盖用户提交的文本评论及关联元数据，如评论日期、评分（1-5分）、评论者名称等，部分含评论获赞数与应用版本信息，为分析用户体验、满意度及需求提供支持。文件详解文件名称: Google Play Review Scraper Strava.xlsx 文件格式:...

ZIP

慢性萎缩性胃炎研究趋势文献计量与自然语言处理分析数据集2014_2024

2025年11月27日

数据集概述本数据集为2014-2024年慢性萎缩性胃炎研究趋势的文献计量与自然语言处理分析相关文章的补充数据，主要包含文章图表对应的核心数据，支持对该领域研究趋势的分析。文件详解该数据集包含6个文件，具体说明如下： - 文件名称: keywords.xlsx，文件格式: XLSX，可能包含研究关键词相关数据 - 文件名称: knowledge...

ZIP

国际软件公司帮助台工单处理全流程实验数据2016_2023

2025年11月27日

数据集概述本数据集来源于一项针对国际软件公司帮助台团队的实验研究，旨在构建基于工单报告和对话行为分类特征的自动化绩效评估模型。数据提取自PostgreSQL数据库，涵盖2016年1月至2023年3月期间的帮助台工单汇总信息，部分字段已匿名化处理以保护隐私。数据集包含工单基本信息、变更历史、处理快照、绩效评分样本及对话内容等九个文件。文件详解...

ZIP

声音行为研究文献数据集2025

2025年11月27日

数据集概述本数据集为2025年Amelia Cyntia开展的声音行为研究相关的全文文献资料，以PDF格式存储，包含1个文件，可在任意设备正常访问，为声音行为领域的研究提供文献支持。文件详解文件名称: Dataset Article Voice Behavior/Article.pdf 文件格式: PDF 内容说明: 包含Amelia...

ZIP

DrugSemantics_黄金标准_西班牙语药品特性摘要命名实体标注数据

2025年11月27日

数据集概述...

ZIP

多语言视频字幕数据集

2025年11月27日

数据集概述本数据集包含从二十四段视频中提取的多语言字幕图像，覆盖泰语和英语两种语言，包含泰文字符、罗马字符、泰语数字、阿拉伯数字及特殊字符，总计一百五十七种字符。数据集经预处理后生成带标注的字幕图像，为多语言文字识别研究提供基础数据。文件详解该数据集包含四千二百二十五张JPG格式的字幕图像文件，具体说明如下： - 核心文件类型: -...

ZIP

调查与翻译相关数据集

2025年11月27日

数据集概述本数据集包含8个与调查和翻译相关的文件，覆盖调查问卷数据、不同版本的翻译文档、译者知情同意书及效度相关文件，为调查内容的翻译与验证工作提供多类型资料支持。文件详解该数据集包含一个目录下的两类文件，具体说明如下： - 数据文件 (.xlsx 格式): - survey based translation/Survey...

ZIP

找到16,243个数据集

注册成功！