-
图形剽窃检测语料库
数据集概述 本数据集为图形剽窃检测语料库,包含形状特征、文本参考特征、形状与文本混合特征三类数据。可整合图形及关联文本(图形内外)的剽窃检测方案,助力研究社区识别非法复制的图形剽窃行为,保护研究者的图形创作权益。 文件详解 文件名称: Figure Plagiarism Detection/Figure Plagiarism corpus.rar...
-
孟加拉语电商评论语料库
数据集概述 该数据集包含八千六百八十五条标注的孟加拉语电商产品评论,采集自Daraz、Bikroy.com等平台,涵盖正面、负面、中性三类情感标签,由专家标注并交叉核验,适用于电商评论情感分析及自然语言处理研究。 文件详解 核心数据文件:...
-
多领域新闻短文本摘要数据集
数据集概述 本数据集包含多领域(旅行、体育、数码、汽车、政治、健康等)的新闻短文本,总字数不超过一万字,可用于短文本摘要研究,且支持扩展至更大数据集。 文件详解 文件数量:共25个文件,均为TXT格式,占比百分之百...
-
皮肤科文献综述深度研究评估补充材料
数据集概述 本数据集是论文《皮肤科文献综述深度研究评估:对炒作的深度关注》的补充材料,包含十份文档,记录了不同大语言模型生成的皮肤科文献综述及评估提示,为研究AI生成文献综述的质量提供原始数据支持。 文件详解 数据集包含十个文档文件,主要格式为PDF和DOCX,具体如下: Supplementary Text...
-
期刊论文发表数据集
数据集概述 该数据集为期刊论文发表相关的综合性资料,包含论文草稿、图表、表格、LaTeX模板文件、补充说明文档等多种类型文件,覆盖论文撰写、排版至投稿的全流程资料,主要围绕滑坡领域研究展开。 文件详解 该数据集由多个目录和文件组成,具体说明如下: - 根目录(Journal Data/): - 子目录: Journal Data/Landslides...
-
路透社27000新闻分类数据集
数据集概述 该数据集为路透社新闻分类语料库,原始包含从路透社网站下载的27000篇随机新闻文章,覆盖健康、艺术、政治等8个类别。经去重处理后得到23863篇文档,随机分为14356篇训练集和9507篇测试集,存储标题、正文及所属类别信息。 文件详解 文件名称: Reuters27000/reuters_27000.zip 文件格式: ZIP压缩包...
-
苹果应用商店用户评论数据集
数据集概述 该数据集包含来自苹果应用商店84款应用(覆盖17个类别)的159,854条用户评论,每条记录含评论标题、正文及1-5星评分,旨在为软件工程研究提供丰富的用户反馈数据。 文件详解 文件名称: dataset.csv 文件格式: CSV (.csv) 字段映射: Title: 评论标题 Review: 评论正文内容 Rating:...
-
媒体ESG情绪与债务成本关联数据集_中国证据
数据集概述 本数据集为《Media ESG sentiment and the cost of debt: Evidence from China》研究配套数据,包含媒体ESG情绪与企业债务成本关联的核心数据文件、分析代码及说明文档,支持相关实证研究的复现与扩展分析。 文件详解 文件名称: readme_em_mediaESG.docx;文件格式:...
-
连续人工语言流中非相邻依赖成功学习数据集
数据集概述 该数据集包含Wang, Zevin & Mintz(待审)报告的4项实验数据,核心围绕连续人工语言流中非相邻依赖的成功学习展开,为语言学习机制相关研究提供数据支持。 文件详解 压缩文件: ExpData.zip: 位于主目录下,为ZIP格式压缩包,包含4项实验的原始数据,具体字段与内容需解压后查看 适用场景 语言认知研究:...
-
基于NLP的软件需求分析文本需求数据集
数据集概述 该数据集包含六十八个来自合作应用、便利店应用、迷你医院应用等不同软件模块的文本需求示例,记录了应用名称、模块、流程功能及系统需求文本描述,覆盖患者登记、现金交易等真实场景,支持自然语言处理与软件工程领域研究。 文件详解 文件名称: Dataset of textual requirements.pdf 文件格式: PDF (.pdf)...
-
孟加拉语疾病症状关联结构化数据集
数据集概述 本数据集为结构化表格形式,包含85种独特疾病、172种症状及758组疾病-症状关联关系。数据以二进制值(1或0)标识症状与疾病的关联情况,为孟加拉语医疗领域的疾病预测研究提供基础数据支持。 文件详解 目录:A Structured Bangla Dataset of Disease-Symptom Ass/ 文件列表:...
-
孟加拉语语音数据集_简单_复杂_复合结构
数据集概述 该数据集是针对孟加拉语的综合资源,包含简单、复杂、复合三种句式的文本数据及对应母语者语音录音,标注了句式类型,适用于语言学分析、自然语言处理及语音识别任务。 文件详解 文件名称: Bangla Voice Dataset Simple, Complex, and Compound/Simple Complex Compound Bangla...
-
人工智能在网络无障碍性系统映射研究数据集
数据集概述 本数据集是关于人工智能在网络无障碍性领域的系统映射研究(SMS)数据,基于PRISMA方法从四大数据库筛选53项研究,用于系统化梳理该领域文献现状与研究趋势。 文件详解 文件名称: Dataset-artificial-ntelligence-web-ccessibility-SMS.xls 文件格式: XLS (.xls) 内容说明:...
-
非洲COVID_19疫情相关位置推文数据集2020
数据集概述 该数据集包含2020年2月14日至8月14日期间非洲五个国家(尼日利亚、南非、阿尔及利亚、埃及、苏丹)与COVID-19和封锁相关的推文数据,涵盖原始及清洗后的826,412条原始推文与619,203条有效推文,为多领域研究提供支持。 文件详解 该数据集包含3个数据文件,具体说明如下: - raw and clean...
-
生成式AI创建文本样本集
数据集概述 本数据集包含四篇由不同生成式AI模型创建的西班牙语文本样本,涉及地中海、气候、抗生素、法律等主题,为研究生成式AI文本生成能力提供基础素材。 文件详解 文件名称:1.ESP ChatGPT_Mediterráneo.docx 文件格式:docx 内容:由ChatGPT生成的关于地中海主题的西班牙语文本 文件名称:2.ESP...
-
计算工作流文本描述信息类型分析数据集2009
数据集概述 该数据集是2009年围绕计算工作流文本描述信息类型分析的研究资料,基于手动标注方法构建,包含分析流程、实验笔记、词汇表及结果文件等,为理解科研人员如何用自然语言描述计算工作流提供数据支持,是相关会议论文的基础数据。 文件详解 分析文件:...
-
房地产数字化转型原始数据集
数据集概述 该数据集为房地产数字化转型研究的原始数据,包含新冠疫情前后两个时期的文献数据及文献计量分析结果,覆盖文献作者、标题、来源等核心信息,为研究房地产数字化转型的发展脉络提供基础数据支持。 文件详解 文件名称: Raw Data_Digital Transformation in Real Estate/Post Covid...
-
印尼语文本分类的认知扭曲数据集
数据集概述 该数据集是首个印尼语认知扭曲句子数据集,包含4662条句子,涵盖完整句及带"$"标记的扭曲部分句,标注有两位专家的标签。部分样本通过回译法扩充,支持印尼语和英语版本,为认知扭曲文本分类研究提供基础数据。 文件详解 文件名称:COGNITIVE DISTORTION DATASET IN BAHASA INDONESIA...
-
印尼语_米南加保语平行语料库
数据集概述 该数据集为印尼语与米南加保语的平行语料库,包含对应语言的句子对,覆盖日常语言使用的多场景与主题,支持机器学习在语言翻译领域的应用,助力自然语言处理研究与翻译应用开发。 文件详解 该数据集由1个CSV文件组成,具体说明如下: - 文件名称: Parallel Corpus Indonesian-Minang/original...
-
MASBA孟加拉语文章多级抽象摘要大规模数据集
数据集概述 该数据集为孟加拉语文章多级抽象摘要的大规模数据集,包含原始文本及三种不同压缩比的摘要(sum1、sum2、sum3),可用于评估不同摘要方法的有效性,分析摘要长度与信息完整性的权衡关系。 文件详解 数据集包含两个文件,具体说明如下: - 文件名称: BanSum.csv - 文件格式: CSV - 字段映射: - ID: 文章唯一标识符 -...



