维基百科平衡性别共指数据集-thedevastator
数据来源:互联网公开数据
标签:共指,性别平衡,数据集,维基百科,文本分析,自然语言处理,NLP,教育,研究
数据概述:
本数据集是来自维基百科的平衡性别共指标注数据集,包含多种特征,如文本、代词、A和B标签、偏移量和共指关系等。数据集分为训练集(train.csv)、验证集(validation.csv)和测试集(test.csv),每部分包含以下字段:Text(维基百科文章的文本)、Pronoun(句子中的代词)、Pronoun-offset(代词在句子中的偏移量)、A(句子中提到的第一个实体)及其偏移量、A-coref(布尔值,指示第一个实体是否与代词共指)、B及其偏移量以及B是否与代词共指等信息。数据集还包含URL字段,链接到相应的维基百科文章。
数据用途概述:
该数据集适用于共指分析、性别敏感的共指解析模型开发、自然语言处理系统训练等场景。通过该数据集,研究者可以探索性别平衡在语言中的表现,开发更准确的机器共指解析算法,训练NLP系统更准确地识别代词及其先行词,研究不同维基百科文章中性别平衡关系的行为和趋势,了解当前在线话语框架。
字段描述:
- Text: 维基百科文章的文本(字符串)
- Pronoun: 句子中的代词(字符串)
- Pronoun-offset: 代词前的单词数量(整数)
- A: 句子中提到的第一个实体(字符串)
- A-offset: 第一个实体的起始索引(整数)
- A-coref: 布尔值,指示第一个实体是否与代词共指(布尔型)
- B-offset: 第二个实体的起始索引(整数)
- B-coref: 布尔值,指示第二个实体是否与代词共指(布尔型)
- URL: 原始维基百科页面的链接(字符串)
该数据集采用CC0 1.0 Universal (CC0 1.0) 公共领域贡献许可,允许无限制地复制、修改、分发和表演该作品,甚至用于商业用途,无需获得许可。