Reddit跨主题作者身份验证语料库

数据集概述

该数据集包含2010至2016年间1000名Reddit用户的评论内容,每个问题包含1篇未知文档和4篇已知文档(每篇约7KB),文档由同一子版块评论聚合而成,且问题内文档子版块不重叠,覆盖1388个不同主题,格式与PAN作者身份识别语料库一致。

文件详解

  • 文件名称: Reddit_Cross-Topic-AV-Corpus_(1000_users).zip
  • 文件格式: ZIP (.zip)
  • 文件内容: 压缩包内包含符合PAN作者身份识别语料库格式的跨主题作者身份验证数据,具体字段及结构需解压后查看原始文件

适用场景

  • 自然语言处理研究: 用于作者身份验证算法的训练与测试
  • 跨主题文本分析: 探究不同主题下作者写作风格的一致性与差异性
  • 语料库语言学研究: 分析Reddit平台用户的语言使用特征
  • 信息安全应用: 支持基于文本的身份识别与伪造检测场景
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.3 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。