NER_Tutorial_Maschinelles_Lernen_数字文学机器学习NER教程训练数据

数据集概述

本数据集是NER教程“数字文学中的机器学习”所需的全部数据,包含模型训练用的信件分析相关文件,支持NER模型的训练与测试。数据集共5个文件,覆盖文本、表格、文档等多种格式,为数字文学领域的机器学习任务提供基础数据支持。

文件详解

  • 数据文件
  • 文件名称:ner_kernkorpus.txt
  • 文件格式:TXT
  • 字段映射介绍:包含信件文本内容,如“Sehr verehrte gnädige Frau, empfangen Sie meinen innigen Dank für das wundervolle Gedicht...”
  • 文件名称:ner_testdaten.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含带标注的测试数据,格式为文本与标签对应,如“Jahren O auch O derjenige O , O Ihr O Werk O einmal O in O einer O runden O Form O zusammenzufassen O . O”
  • 文件名称:ner_trainingsdaten.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含带标注的训练数据,格式为文本与标签对应,如“Sehr O verehrter O Herr O Dehmel O , O Ver O - O haeren O wohnt O jetzt O St. O Cloud O ( O Paris O ) O 4 O , O rue O Montrefont O in O”
  • 文档文件
  • 文件名称:Datengrundlage und Eingabebefehle.docx
  • 文件格式:DOCX
  • 字段映射介绍:包含数据基础说明及输入命令相关文档内容
  • 配置文件
  • 文件名称:briefanalyse.prop
  • 文件格式:PROP
  • 字段映射介绍:信件分析相关配置文件

数据来源

NER教程“Maschinelles Lernen in der digitalen Literaturwissenschaft”

适用场景

  • NER模型训练: 利用训练数据和测试数据进行命名实体识别模型的训练与评估
  • 数字文学文本分析: 基于信件文本数据开展数字文学领域的文本挖掘研究
  • 文本标注研究: 分析标注数据的格式与内容,优化NER模型的标注策略
  • 机器学习教育实践: 作为数字文学机器学习教程的实践数据,支持教学演示与实验
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.11 MiB
最后更新 2026年1月4日
创建于 2026年1月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。