跨主题作者归属大型语料库FICSIT

数据集概述

该数据集是精准控制跨主题样本的作者归属语料库,基于StackExchange平台数据构建,包含1237位作者的188077条文本样本,覆盖308个主题,未进行额外预处理,为跨主题作者归属研究提供基础数据。

文件详解

  • 文件名称: FICSIT.zip:压缩包格式,包含跨主题作者归属的文本样本数据,具体字段需解压后查看
  • 文件名称: Release_Notes.pdf:PDF格式,可能包含数据集的发布说明、构建细节或使用规范

数据来源

StackExchange

适用场景

  • 自然语言处理研究:用于跨主题作者归属算法的训练与验证
  • 计算语言学分析:探究不同主题下作者写作风格的稳定性与差异
  • 信息安全应用:支持基于文本特征的作者身份识别技术研发
  • 语料库语言学研究:分析大规模跨主题文本数据的语言特征分布
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 241.9 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。