数据集 - 海数据

图形剽窃检测语料库

2025年11月26日

数据集概述本数据集为图形剽窃检测语料库，包含形状特征、文本参考特征、形状与文本混合特征三类数据。可整合图形及关联文本（图形内外）的剽窃检测方案，助力研究社区识别非法复制的图形剽窃行为，保护研究者的图形创作权益。文件详解文件名称: Figure Plagiarism Detection/Figure Plagiarism corpus.rar...

ZIP

孟加拉语电商评论语料库

2025年11月26日

数据集概述该数据集包含八千六百八十五条标注的孟加拉语电商产品评论，采集自Daraz、Bikroy.com等平台，涵盖正面、负面、中性三类情感标签，由专家标注并交叉核验，适用于电商评论情感分析及自然语言处理研究。文件详解核心数据文件：...

ZIP

多领域新闻短文本摘要数据集

2025年11月26日

数据集概述本数据集包含多领域（旅行、体育、数码、汽车、政治、健康等）的新闻短文本，总字数不超过一万字，可用于短文本摘要研究，且支持扩展至更大数据集。文件详解文件数量：共25个文件，均为TXT格式，占比百分之百...

ZIP

皮肤科文献综述深度研究评估补充材料

2025年11月26日

数据集概述本数据集是论文《皮肤科文献综述深度研究评估：对炒作的深度关注》的补充材料，包含十份文档，记录了不同大语言模型生成的皮肤科文献综述及评估提示，为研究AI生成文献综述的质量提供原始数据支持。文件详解数据集包含十个文档文件，主要格式为PDF和DOCX，具体如下： Supplementary Text...

ZIP

期刊论文发表数据集

2025年11月26日

数据集概述该数据集为期刊论文发表相关的综合性资料，包含论文草稿、图表、表格、LaTeX模板文件、补充说明文档等多种类型文件，覆盖论文撰写、排版至投稿的全流程资料，主要围绕滑坡领域研究展开。文件详解该数据集由多个目录和文件组成，具体说明如下： - 根目录（Journal Data/）: - 子目录: Journal Data/Landslides...

ZIP

路透社27000新闻分类数据集

2025年11月26日

数据集概述该数据集为路透社新闻分类语料库，原始包含从路透社网站下载的27000篇随机新闻文章，覆盖健康、艺术、政治等8个类别。经去重处理后得到23863篇文档，随机分为14356篇训练集和9507篇测试集，存储标题、正文及所属类别信息。文件详解文件名称: Reuters27000/reuters_27000.zip 文件格式: ZIP压缩包...

ZIP

苹果应用商店用户评论数据集

2025年11月26日

数据集概述该数据集包含来自苹果应用商店84款应用（覆盖17个类别）的159,854条用户评论，每条记录含评论标题、正文及1-5星评分，旨在为软件工程研究提供丰富的用户反馈数据。文件详解文件名称: dataset.csv 文件格式: CSV (.csv) 字段映射: Title: 评论标题 Review: 评论正文内容 Rating:...

ZIP

媒体ESG情绪与债务成本关联数据集_中国证据

2025年11月26日

数据集概述本数据集为《Media ESG sentiment and the cost of debt: Evidence from China》研究配套数据，包含媒体ESG情绪与企业债务成本关联的核心数据文件、分析代码及说明文档，支持相关实证研究的复现与扩展分析。文件详解文件名称: readme_em_mediaESG.docx；文件格式:...

ZIP

连续人工语言流中非相邻依赖成功学习数据集

2025年11月26日

数据集概述该数据集包含Wang, Zevin & Mintz（待审）报告的4项实验数据，核心围绕连续人工语言流中非相邻依赖的成功学习展开，为语言学习机制相关研究提供数据支持。文件详解压缩文件: ExpData.zip: 位于主目录下，为ZIP格式压缩包，包含4项实验的原始数据，具体字段与内容需解压后查看适用场景语言认知研究:...

ZIP

基于NLP的软件需求分析文本需求数据集

2025年11月26日

数据集概述该数据集包含六十八个来自合作应用、便利店应用、迷你医院应用等不同软件模块的文本需求示例，记录了应用名称、模块、流程功能及系统需求文本描述，覆盖患者登记、现金交易等真实场景，支持自然语言处理与软件工程领域研究。文件详解文件名称: Dataset of textual requirements.pdf 文件格式: PDF (.pdf)...

ZIP

孟加拉语疾病症状关联结构化数据集

2025年11月26日

数据集概述本数据集为结构化表格形式，包含85种独特疾病、172种症状及758组疾病-症状关联关系。数据以二进制值（1或0）标识症状与疾病的关联情况，为孟加拉语医疗领域的疾病预测研究提供基础数据支持。文件详解目录：A Structured Bangla Dataset of Disease-Symptom Ass/ 文件列表：...

ZIP

孟加拉语语音数据集_简单_复杂_复合结构

2025年11月26日

数据集概述该数据集是针对孟加拉语的综合资源，包含简单、复杂、复合三种句式的文本数据及对应母语者语音录音，标注了句式类型，适用于语言学分析、自然语言处理及语音识别任务。文件详解文件名称: Bangla Voice Dataset Simple, Complex, and Compound/Simple Complex Compound Bangla...

ZIP

人工智能在网络无障碍性系统映射研究数据集

2025年11月26日

数据集概述本数据集是关于人工智能在网络无障碍性领域的系统映射研究（SMS）数据，基于PRISMA方法从四大数据库筛选53项研究，用于系统化梳理该领域文献现状与研究趋势。文件详解文件名称: Dataset-artificial-ntelligence-web-ccessibility-SMS.xls 文件格式: XLS (.xls) 内容说明:...

ZIP

非洲COVID_19疫情相关位置推文数据集2020

2025年11月26日

数据集概述该数据集包含2020年2月14日至8月14日期间非洲五个国家（尼日利亚、南非、阿尔及利亚、埃及、苏丹）与COVID-19和封锁相关的推文数据，涵盖原始及清洗后的826,412条原始推文与619,203条有效推文，为多领域研究提供支持。文件详解该数据集包含3个数据文件，具体说明如下： - raw and clean...

ZIP

生成式AI创建文本样本集

2025年11月26日

数据集概述本数据集包含四篇由不同生成式AI模型创建的西班牙语文本样本，涉及地中海、气候、抗生素、法律等主题，为研究生成式AI文本生成能力提供基础素材。文件详解文件名称：1.ESP ChatGPT_Mediterráneo.docx 文件格式：docx 内容：由ChatGPT生成的关于地中海主题的西班牙语文本文件名称：2.ESP...

ZIP

计算工作流文本描述信息类型分析数据集2009

2025年11月26日

数据集概述该数据集是2009年围绕计算工作流文本描述信息类型分析的研究资料，基于手动标注方法构建，包含分析流程、实验笔记、词汇表及结果文件等，为理解科研人员如何用自然语言描述计算工作流提供数据支持，是相关会议论文的基础数据。文件详解分析文件：...

ZIP

房地产数字化转型原始数据集

2025年11月26日

数据集概述该数据集为房地产数字化转型研究的原始数据，包含新冠疫情前后两个时期的文献数据及文献计量分析结果，覆盖文献作者、标题、来源等核心信息，为研究房地产数字化转型的发展脉络提供基础数据支持。文件详解文件名称: Raw Data_Digital Transformation in Real Estate/Post Covid...

ZIP

印尼语文本分类的认知扭曲数据集

2025年11月26日

数据集概述该数据集是首个印尼语认知扭曲句子数据集，包含4662条句子，涵盖完整句及带"$"标记的扭曲部分句，标注有两位专家的标签。部分样本通过回译法扩充，支持印尼语和英语版本，为认知扭曲文本分类研究提供基础数据。文件详解文件名称：COGNITIVE DISTORTION DATASET IN BAHASA INDONESIA...

ZIP

印尼语_米南加保语平行语料库

2025年11月26日

数据集概述该数据集为印尼语与米南加保语的平行语料库，包含对应语言的句子对，覆盖日常语言使用的多场景与主题，支持机器学习在语言翻译领域的应用，助力自然语言处理研究与翻译应用开发。文件详解该数据集由1个CSV文件组成，具体说明如下： - 文件名称: Parallel Corpus Indonesian-Minang/original...

ZIP

MASBA孟加拉语文章多级抽象摘要大规模数据集

2025年11月26日

数据集概述该数据集为孟加拉语文章多级抽象摘要的大规模数据集，包含原始文本及三种不同压缩比的摘要（sum1、sum2、sum3），可用于评估不同摘要方法的有效性，分析摘要长度与信息完整性的权衡关系。文件详解数据集包含两个文件，具体说明如下： - 文件名称: BanSum.csv - 文件格式: CSV - 字段映射: - ID: 文章唯一标识符 -...

ZIP

找到16,243个数据集

注册成功！