跨主题作者归属大型语料库FICSIT

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

跨主题作者归属大型语料库FICSIT

数据集概述

该数据集是精准控制跨主题样本的作者归属语料库，基于StackExchange平台数据构建，包含1237位作者的188077条文本样本，覆盖308个主题，未进行额外预处理，为跨主题作者归属研究提供基础数据。

文件详解

文件名称: FICSIT.zip：压缩包格式，包含跨主题作者归属的文本样本数据，具体字段需解压后查看
文件名称: Release_Notes.pdf：PDF格式，可能包含数据集的发布说明、构建细节或使用规范

数据来源

StackExchange

适用场景

自然语言处理研究：用于跨主题作者归属算法的训练与验证
计算语言学分析：探究不同主题下作者写作风格的稳定性与差异
信息安全应用：支持基于文本特征的作者身份识别技术研发
语料库语言学研究：分析大规模跨主题文本数据的语言特征分布

数据与资源

7478179.zipZIP
241.90 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	241.9 MiB
最后更新	2025年12月23日
创建于	2025年12月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？