找到271个数据集

标签: 文本标注

过滤结果
  • 法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集

    2025年12月15日 30 3 1

    数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
    packageimg
  • ToxHabits_NER_毒性习惯场景命名实体识别标注数据集

    2025年12月15日 30 206 173

    数据集概述 该数据集是西班牙语临床文本中“毒性习惯”命名实体识别的标注数据,聚焦烟草使用、酒精消费、非法药物使用等实体的检测与分类,含训练集和测试集,为临床及流行病学研究提供标注资源。 文件详解 训练集文件: ToxHabits(ToxNER)_Train_ANNFiles.zip:ZIP格式,包含ToxNER任务的训练集标注文件...
    packageimg
  • IIT_Madras_Mridangam_Tani_avarthanam_Based_塔尼阿瓦坦哈姆打击乐演奏数据集

    2025年12月12日 30 83 29

    数据集概述 本数据集包含由著名Mridangam大师Padmavibhushan Umayalpuram K. Sivaraman演奏的两段Tani-avarthanam的转录内容,音频录制于印度IIT Madras,由专业卡纳提克打击乐手进行标注,提供打击乐节奏模式的音节化表示。 文件详解 文件名称: mridangam_tani-...
    packageimg
  • 火星目标百科全书_月球与行星科学会议标注摘要数据集2015_2016

    2025年12月11日 30 52 33

    数据集概述 本数据集包含2015年和2016年月球与行星科学会议(LPSC)发表的117篇摘要的标注文本数据,通过Apache Tika工具提取PDF文本,并以brat标注工具格式提供实体与关系注释,支持文本挖掘与信息提取研究。 文件详解 压缩文件:lpsc-annotated.zip(ZIP格式),包含以下目录和文件:...
    packageimg
  • Twitter仇恨言论检测与分析数据集

    2025年12月8日 30 28 23

    数据集概述 该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。 文件详解 文件名称:labeled_corpus_6K.txt 文件格式:TXT(.txt)...
    packageimg
  • Heliand_Parsed_Based_古撒克逊语Heliand文本解析完整数据

    2025年12月7日 30 185 160

    数据集概述 该数据集包含古撒克逊语福音书《Heliand》C手稿的五千九百六十八行内容,采用Sievers(一八七八年)版本,相比Behaghel标准版更适合语言学研究。数据集以UTF-8纯文本格式设计,遵循Penn历史英语语料库格式,支持CorpusSearch...
    packageimg
  • 博罗罗语语料库0_3版

    2025年12月6日 30 34 2

    数据集概述 本数据集为博罗罗语语料库(CorBo)的0.3版本,包含更多数据、OLAC格式元数据及改进的标注内容,是一个语言研究领域的语料库资源。 文件详解 文件名称: LanguageStructure/Bororo-Corpus-v0.3.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含博罗罗语语料库的全部数据,具体内容需解压后查看。...
    packageimg
  • MEDDOPROF语料库训练集与补充实体数据集

    2025年12月5日 30 105 51

    数据集概述 该数据集为MEDDOPROF共享任务资源,包含西班牙语临床病例中职业与就业状态检测的训练数据及补充实体标注。数据集支持职业提及识别、分类和归一化三个子任务,适用于自然语言处理相关研究与应用。 文件详解 文件名称: meddoprof-training-set.zip 文件格式: ZIP压缩包 (.zip) 文件内容:...
    packageimg
  • 神经影像学文献挖掘论文匹配数据集

    2025年12月4日 30 7 3

    数据集概述 本数据集包含与《Mining the neuroimaging literature》论文匹配的标注数据,通过压缩文件存储,为神经影像学文献挖掘相关研究提供数据支持。 文件详解 该数据集由一个压缩文件组成,具体说明如下: - 文件名称: litmining/labelbuddy-annotations-v0.0.1.zip - 文件格式:...
    packageimg
  • 文章提及语言及其ISO代码列表_延续循环

    2025年12月4日 30 49 45

    数据集概述 本数据集为单一PDF文件,内容是文章《延续循环》中提及的语言及其对应的ISO代码列表,为语言相关研究或应用提供标准化编码参考。 文件详解 文件名称:The_languages_mentioned_in_the_article_Continuative Cycle_with_thei_ ISO_codes.pdf 文件格式:PDF...
    packageimg
  • 基于字典的大规模文本标注系统文档_Spark_SolrTextTagger_OpenNLP

    2025年11月27日 30 150 136

    数据集概述 本数据集包含一份演示文稿,介绍一种基于Spark、SolrTextTagger和OpenNLP技术的大规模文本标注系统。该系统支持通过Solr存储字典,利用Lucene的有限状态转换器实现低内存精确匹配,同时结合OpenNLP进行模糊匹配,可处理百万级字典条目,返回匹配位置、实体ID及置信度等结果。 文件详解 文件名称:...
    packageimg
  • 图像文字识别数据集

    2025年11月12日 30 131 15

    图像文字识别数据集_Image_Text_Recognition_Dataset 数据来源:互联网公开数据 标签:OCR, 图像识别, 文字识别, 深度学习, 数据集, 文本标注, 计算机视觉, 机器学习 数据概述: 该数据集包含图像文件及其对应的文本标注,记录了用于训练和评估光学字符识别(OCR)模型的数据。主要特征如下:...
    packageimg
  • 文本信息实体识别与匹配评估数据集

    2025年11月1日 30 26 0

    文本信息实体识别与匹配评估数据集_Text_Information_Entity_Recognition_and_Matching_Evaluation_Dataset 数据来源:互联网公开数据 标签:实体识别, 文本匹配, 自然语言处理, 机器学习, 评估数据集, 命名实体识别, 关系抽取, 文本标注 数据概述:...
    packageimg
  • 学生姓名识别标注预测数据集

    2025年10月23日 30 75 60

    学生姓名识别标注预测数据集_Student_Name_Recognition_and_Prediction_Dataset 数据来源:互联网公开数据 标签:命名实体识别, 文本标注, 自然语言处理, 机器学习, 学生信息, 预测分析, 深度学习, 数据集 数据概述: 该数据集包含用于学生姓名识别与预测的标注数据和模型相关文件。主要特征如下:...
    packageimg
  • 实体识别模型验证数据集

    2025年10月19日 30 71 69

    实体识别模型验证数据集_Entity_Recognition_Model_Validation_Dataset 数据来源:互联网公开数据 标签:实体识别, 自然语言处理, 文本标注, 模型评估, 机器学习, 文本分析, 命名实体识别, 数据集 数据概述: 该数据集包含用于评估实体识别(Entity Recognition,...
    packageimg
  • 医学论文结构元素识别预测数据集

    2025年10月16日 30 107 21

    医学论文结构元素识别预测数据集_Medical_Paper_Structure_Element_Recognition_Prediction 数据来源:互联网公开数据 标签:医学论文, 文本标注, 结构识别, 自然语言处理, 机器学习, 文本分类, 实体识别, 预测模型 数据概述:...
    packageimg
  • 尼泊尔语语音识别文本数据集

    2025年10月14日 30 130 122

    尼泊尔语语音识别文本数据集_Nepali_Speech_Recognition_Text_Dataset 数据来源:互联网公开数据 标签:语音识别, 尼泊尔语, 语音数据, 文本标注, 声学模型, 语言模型, 深度学习, 音频分析 数据概述: 该数据集包含尼泊尔语语音数据及其对应的文本转录,旨在促进尼泊尔语语音识别技术的研究与开发。主要特征如下:...
    packageimg
  • 论文写作结构要素识别数据集

    2025年9月23日 60 18 0

    论文写作结构要素识别数据集_Essay_Structure_Element_Identification 数据来源:互联网公开数据 标签:文本分析, 自然语言处理, 论文写作, 结构识别, 文本标注, 机器学习, 语义分析, 深度学习 数据概述:...
    packageimg
  • 医学文本信息抽取验证数据集

    2025年10月10日 30 186 111

    医学文本信息抽取验证数据集_Medical_Text_Information_Extraction_Validation_Dataset 数据来源:互联网公开数据 标签:医学文本, 信息抽取, 命名实体识别, 关系抽取, 文本标注, 机器学习, 自然语言处理, 医疗健康 数据概述:...
    packageimg
  • 文本信息实体识别与关系抽取评估数据集

    2025年8月25日 60 148 64

    文本信息实体识别与关系抽取评估数据集_Text_Information_Entity_Recognition_and_Relation_Extraction_Evaluation 数据来源:互联网公开数据 标签:实体识别, 关系抽取, 自然语言处理, 文本标注, 深度学习, 模型评估, 机器学习, 文本分析 数据概述:...
    packageimg