-
PetroGeoNER_Based_石油地质命名实体识别实验数据
2026年1月28日 30 207 178
数据集概述 本数据集为石油地质领域命名实体识别任务(PetroGeoNER)的实验数据,包含训练、开发、测试三种用途的文件,核心用于支持石油地质专业文本中命名实体的识别模型训练与评估,共3个JSON格式文件。 文件详解 文件名称:petrogeoner_train02.json 文件格式:JSON...
-
BalotajeArgentina2015_SentimientoTweets_社交媒体情感分析数据
2026年1月4日 30 210 160
数据集概述 本数据集基于阿根廷2015年总统决选期间的Twitter推文情感分析,通过自然语言处理技术提取用户对总统候选人的态度倾向,可用于预测选民投票意向。数据由Kunan公司提供,包含3个压缩文件,覆盖推文内容、情感分析结果及用户定位信息。 文件详解 情感分析结果文件: 文件名称:sentimientos.txt.zip 文件格式:TXT(压缩包)...
-
Web_Based_NLP_Personalized_Learning_Application_Data
2025年12月31日 30 78 55
数据集概述 本数据集为基于Web的个性化学习应用相关数据,采用自然语言处理技术支持个性化学习功能。数据集仅包含一个文件,未区分训练/测试、数据/标签或原始/处理数据,文件类型单一为Excel格式。 文件详解 文件名称:Personalized Learning.xlsx 文件格式:XLSX...
-
PAN12欺骗检测性捕食者识别数据集
2025年12月22日 30 7 6
数据集概述 本数据集为PAN 2012实验室“性捕食者识别”任务的训练语料库,该实验室与CLEF 2012会议同期举办,用于支持相关欺骗检测研究。 文件详解 文件名称: pan12-sexual-predator-identification-test-and-training.zip 文件格式: ZIP压缩包 内容说明:...
-
展览引言面板文本研究数据集2022
2025年12月9日 30 207 169
数据集概述 本数据集包含两个展览引言面板的完整文本,用于支持“博物馆展览中的文本处理”相关研究。数据来源于2022年查理大学哲学系信息研究与图书馆学研究所的学士学位论文,后续成为专业论文《展览引言面板:文本定量分析与观众感知》的基础。 文件详解 文件名称: vyzkumne-texty.pdf 文件格式: PDF (.pdf) 内容说明:...
-
BNE_Based_PastReader_2025_历史报刊数字化完整数据
2025年12月8日 30 8 4
数据集概述 该数据集用于IberLEF 2025的PastReader 2025共享任务,基于西班牙国家图书馆数字化的公共领域历史报刊生成,包含训练、开发、测试三类压缩文件,支持相关历史文本处理任务研究。 文件详解 文件名称:train.zip 文件格式:ZIP压缩文件 说明:训练集压缩包,具体内容未提供预览 文件名称:dev.zip...
-
COVID-19研究论文词干提取数据集
2025年5月31日 30 77 17
COVID-19研究论文词干提取数据集 数据来源:互联网公开数据 标签:COVID-19研究,NLP技术,词干提取,文本处理,数据科学,公共卫生 数据概述:...



