PAN16_Based_作者身份识别文档聚类测试训练数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

PAN16_Based_作者身份识别文档聚类测试训练数据

数据集概述

本数据集为PAN16作者身份识别聚类任务的文档集合，包含至多一百篇单作者文档，所有文档语言与体裁一致，但主题或文本长度可能不同。数据集未明确说明包含的不同作者数量，旨在用于识别文档间的作者身份关联及同一作者的文档分组。

文件详解

文件名称：pan16-author-clustering-test-and-training.zip
文件格式：ZIP
字段映射介绍：压缩包内包含用于作者身份识别聚类任务的测试与训练文档集合，具体字段需解压后查看，数据集未提供README或内容预览。

适用场景

作者身份识别算法开发: 用于训练和测试基于聚类的作者身份识别模型，验证模型在文档分组及作者关联识别上的性能。
机器学习聚类方法研究: 探索不同聚类算法在作者身份识别任务中的适用性与效果优化。
文本特征工程分析: 研究文本特征（如风格、主题等）对作者身份聚类结果的影响。
文档分组应用开发: 为需要对文档进行作者身份关联分组的场景提供数据支持，如学术论文查重、文学作品溯源等。

数据与资源

3737587.zipZIP
5.08 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	5.08 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？