Reddit跨主题作者身份验证语料库

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Reddit跨主题作者身份验证语料库

数据集概述

该数据集包含2010至2016年间1000名Reddit用户的评论内容，每个问题包含1篇未知文档和4篇已知文档（每篇约7KB），文档由同一子版块评论聚合而成，且问题内文档子版块不重叠，覆盖1388个不同主题，格式与PAN作者身份识别语料库一致。

文件详解

文件名称: Reddit_Cross-Topic-AV-Corpus_(1000_users).zip
文件格式: ZIP (.zip)
文件内容: 压缩包内包含符合PAN作者身份识别语料库格式的跨主题作者身份验证数据，具体字段及结构需解压后查看原始文件

适用场景

自然语言处理研究: 用于作者身份验证算法的训练与测试
跨主题文本分析: 探究不同主题下作者写作风格的一致性与差异性
语料库语言学研究: 分析Reddit平台用户的语言使用特征
信息安全应用: 支持基于文本的身份识别与伪造检测场景

数据与资源

hppkn5kbg8-1.zipZIP
13.30 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	13.3 MiB
最后更新	2025年11月28日
创建于	2025年11月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？