数据集概述
本数据集是NER教程“数字文学中的机器学习”所需的全部数据,包含模型训练用的信件分析相关文件,支持NER模型的训练与测试。数据集共5个文件,覆盖文本、表格、文档等多种格式,为数字文学领域的机器学习任务提供基础数据支持。
文件详解
- 数据文件
- 文件名称:ner_kernkorpus.txt
- 文件格式:TXT
- 字段映射介绍:包含信件文本内容,如“Sehr verehrte gnädige Frau, empfangen Sie meinen innigen Dank für das wundervolle Gedicht...”
- 文件名称:ner_testdaten.tsv
- 文件格式:TSV
- 字段映射介绍:包含带标注的测试数据,格式为文本与标签对应,如“Jahren O auch O derjenige O , O Ihr O Werk O einmal O in O einer O runden O Form O zusammenzufassen O . O”
- 文件名称:ner_trainingsdaten.tsv
- 文件格式:TSV
- 字段映射介绍:包含带标注的训练数据,格式为文本与标签对应,如“Sehr O verehrter O Herr O Dehmel O , O Ver O - O haeren O wohnt O jetzt O St. O Cloud O ( O Paris O ) O 4 O , O rue O Montrefont O in O”
- 文档文件
- 文件名称:Datengrundlage und Eingabebefehle.docx
- 文件格式:DOCX
- 字段映射介绍:包含数据基础说明及输入命令相关文档内容
- 配置文件
- 文件名称:briefanalyse.prop
- 文件格式:PROP
- 字段映射介绍:信件分析相关配置文件
数据来源
NER教程“Maschinelles Lernen in der digitalen Literaturwissenschaft”
适用场景
- NER模型训练: 利用训练数据和测试数据进行命名实体识别模型的训练与评估
- 数字文学文本分析: 基于信件文本数据开展数字文学领域的文本挖掘研究
- 文本标注研究: 分析标注数据的格式与内容,优化NER模型的标注策略
- 机器学习教育实践: 作为数字文学机器学习教程的实践数据,支持教学演示与实验