数据集概述
本数据集为PAN@CLEF2024共享任务“多作者写作风格分析”的专用数据,包含三种难度(Easy、Medium、Hard)的英文文档,任务为段落级内在风格变化检测。数据集分为训练集、验证集和测试集,训练集和验证集含真实标签,测试集无标签,用于算法开发与评估。
文件详解
- 文件名称:pan24-multi-author-analysis.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含三种难度级别的文档数据,每个文档包含段落文本及对应风格变化检测的真实标签(训练集、验证集);文档按Easy/Medium/Hard难度分类,段落级风格变化仅发生在连续段落之间,单段落无风格变化。
数据来源
PAN@CLEF2024共享任务“Multi-Author Writing Style Analysis”
适用场景
- 写作风格变化检测算法开发: 用于训练和验证段落级内在风格变化检测模型,适配不同难度的文本场景。
- 多作者文本分析研究: 探究主题一致性对作者风格变化检测的影响机制。
- 自然语言处理模型评估: 作为基准数据集,评估不同算法在风格变化检测任务上的性能。
- 文本风格特征提取: 分析不同难度文本中风格特征与主题信息的关联,优化特征工程方法。