数据集 - 海数据

Zenon纸草文献手写文本识别基准数据集

2025年12月19日 30 21 13

数据集概述本数据集包含Zenon档案中纸草文献的基准数据，涵盖手写文本的外交转录内容，采用PageXML格式存储，适用于手写文本识别研究，共含五十九个文件，包含图片与XML两种格式。文件详解该数据集包含两种格式的文件，具体说明如下： - 图片文件（.jpg格式，共三十二个）： -...

ZIP

法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集

2025年12月15日 30 51 26

数据集概述本数据集包含从法国建筑技术规范（CCTP）中提取的二百三十三条原始木工条款要求，来源于七十二份法国公共建筑项目的CCTP文档，涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别（NER）和关系抽取（RE）标注，适用于建筑领域需求工程的自然语言处理研究。文件详解...

ZIP

ToxHabits_NER_毒性习惯场景命名实体识别标注数据集

2025年12月15日 30 22 20

数据集概述该数据集是西班牙语临床文本中“毒性习惯”命名实体识别的标注数据，聚焦烟草使用、酒精消费、非法药物使用等实体的检测与分类，含训练集和测试集，为临床及流行病学研究提供标注资源。文件详解训练集文件： ToxHabits(ToxNER)_Train_ANNFiles.zip：ZIP格式，包含ToxNER任务的训练集标注文件...

ZIP

IIT_Madras_Mridangam_Tani_avarthanam_Based_塔尼阿瓦坦哈姆打击乐演奏数据集

2025年12月12日 30 93 35

数据集概述本数据集包含由著名Mridangam大师Padmavibhushan Umayalpuram K. Sivaraman演奏的两段Tani-avarthanam的转录内容，音频录制于印度IIT Madras，由专业卡纳提克打击乐手进行标注，提供打击乐节奏模式的音节化表示。文件详解文件名称: mridangam_tani-...

ZIP

火星目标百科全书_月球与行星科学会议标注摘要数据集2015_2016

2025年12月11日 30 26 16

数据集概述本数据集包含2015年和2016年月球与行星科学会议（LPSC）发表的117篇摘要的标注文本数据，通过Apache Tika工具提取PDF文本，并以brat标注工具格式提供实体与关系注释，支持文本挖掘与信息提取研究。文件详解压缩文件：lpsc-annotated.zip（ZIP格式），包含以下目录和文件：...

ZIP

Twitter仇恨言论检测与分析数据集

2025年12月8日 30 135 132

数据集概述该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库：2017年2月至12月收集的200万条原始推文，以及6000条标注是否包含仇恨内容的推文，为相关研究提供数据支持。文件详解文件名称：labeled_corpus_6K.txt 文件格式：TXT（.txt）...

ZIP

Heliand_Parsed_Based_古撒克逊语Heliand文本解析完整数据

2025年12月7日 30 86 44

数据集概述该数据集包含古撒克逊语福音书《Heliand》C手稿的五千九百六十八行内容，采用Sievers（一八七八年）版本，相比Behaghel标准版更适合语言学研究。数据集以UTF-8纯文本格式设计，遵循Penn历史英语语料库格式，支持CorpusSearch...

ZIP

博罗罗语语料库0_3版

2025年12月6日 30 122 57

数据集概述本数据集为博罗罗语语料库（CorBo）的0.3版本，包含更多数据、OLAC格式元数据及改进的标注内容，是一个语言研究领域的语料库资源。文件详解文件名称: LanguageStructure/Bororo-Corpus-v0.3.zip 文件格式: ZIP压缩包内容说明: 压缩包内包含博罗罗语语料库的全部数据，具体内容需解压后查看。...

ZIP

MEDDOPROF语料库训练集与补充实体数据集

2025年12月5日 30 22 14

数据集概述该数据集为MEDDOPROF共享任务资源，包含西班牙语临床病例中职业与就业状态检测的训练数据及补充实体标注。数据集支持职业提及识别、分类和归一化三个子任务，适用于自然语言处理相关研究与应用。文件详解文件名称: meddoprof-training-set.zip 文件格式: ZIP压缩包 (.zip) 文件内容:...

ZIP

神经影像学文献挖掘论文匹配数据集

2025年12月4日 30 161 16

数据集概述本数据集包含与《Mining the neuroimaging literature》论文匹配的标注数据，通过压缩文件存储，为神经影像学文献挖掘相关研究提供数据支持。文件详解该数据集由一个压缩文件组成，具体说明如下： - 文件名称: litmining/labelbuddy-annotations-v0.0.1.zip - 文件格式:...

ZIP

文章提及语言及其ISO代码列表_延续循环

2025年12月4日 30 119 99

数据集概述本数据集为单一PDF文件，内容是文章《延续循环》中提及的语言及其对应的ISO代码列表，为语言相关研究或应用提供标准化编码参考。文件详解文件名称：The_languages_mentioned_in_the_article_Continuative Cycle_with_thei_ ISO_codes.pdf 文件格式：PDF...

ZIP

基于字典的大规模文本标注系统文档_Spark_SolrTextTagger_OpenNLP

2025年11月27日 30 168 134

数据集概述本数据集包含一份演示文稿，介绍一种基于Spark、SolrTextTagger和OpenNLP技术的大规模文本标注系统。该系统支持通过Solr存储字典，利用Lucene的有限状态转换器实现低内存精确匹配，同时结合OpenNLP进行模糊匹配，可处理百万级字典条目，返回匹配位置、实体ID及置信度等结果。文件详解文件名称:...

ZIP

找到12个数据集

注册成功！