数据集

维基百科平衡性别共指数据集-thedevastator

维基百科平衡性别共指数据集-thedevastator 数据来源：互联网公开数据标签：共指,性别平衡,数据集,维基百科,文本分析,自然语言处理,NLP,教育,研究

数据概述：本数据集是来自维基百科的平衡性别共指标注数据集，包含多种特征，如文本、代词、A和B标签、偏移量和共指关系等。数据集分为训练集（train.csv）、验证集（validation.csv）和测试集（test.csv），每部分包含以下字段：Text（维基百科文章的文本）、Pronoun（句子中的代词）、Pronoun-offset（代词在句子中的偏移量）、A（句子中提到的第一个实体）及其偏移量、A-coref（布尔值，指示第一个实体是否与代词共指）、B及其偏移量以及B是否与代词共指等信息。数据集还包含URL字段，链接到相应的维基百科文章。

数据用途概述：该数据集适用于共指分析、性别敏感的共指解析模型开发、自然语言处理系统训练等场景。通过该数据集，研究者可以探索性别平衡在语言中的表现，开发更准确的机器共指解析算法，训练NLP系统更准确地识别代词及其先行词，研究不同维基百科文章中性别平衡关系的行为和趋势，了解当前在线话语框架。

字段描述： - Text: 维基百科文章的文本（字符串） - Pronoun: 句子中的代词（字符串） - Pronoun-offset: 代词前的单词数量（整数） - A: 句子中提到的第一个实体（字符串） - A-offset: 第一个实体的起始索引（整数） - A-coref: 布尔值，指示第一个实体是否与代词共指（布尔型） - B-offset: 第二个实体的起始索引（整数） - B-coref: 布尔值，指示第二个实体是否与代词共指（布尔型） - URL: 原始维基百科页面的链接（字符串）

该数据集采用CC0 1.0 Universal (CC0 1.0) 公共领域贡献许可，允许无限制地复制、修改、分发和表演该作品，甚至用于商业用途，无需获得许可。

数据与资源

versions_20250407084625.zipZIP
0.94 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.94 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

维基百科平衡性别共指数据集-thedevastator

数据与资源

附加信息

注册成功！