西班牙维基百科性别差距研究女性编辑及其编辑行为数据集-joebeachcapital
数据来源:互联网公开数据
标签:维基百科,性别差距,女性编辑,编辑行为,研究数据,西班牙,数据分析
数据概述:
本数据集用于估计西班牙维基百科中的女性编辑数量及其编辑实践,包含20k个观测事件,旨在探索西班牙维基百科中的性别差距。数据集由J. Minguillón等学者于2021年在《PLoS ONE》期刊上发表的研究成果所使用。数据集涵盖了编辑的性别信息、编辑时间范围、编辑数量、编辑页面类型等关键指标。
数据包含以下字段:
gender:性别,编码为0(未知)、1(男性)、2(女性)
C_api:通过WikiMedia API提取的性别,编码为female(女性)/male(男性)/unknown(未知)
C_man:通过内容编码提取的性别,编码为1(男性)/2(女性)/3(未知)
E_NEds:第一层分层索引IJ的值(0,1,2,3)
E_Bpag:第二层分层索引IJ的值(0,1,2,3)
firstDay:首次编辑日期时间(YYYYMMDDHHMMSS)
lastDay:最后一次编辑日期时间(YYYYMMDDHHMMSS)
NEds:编辑总数
NDays:编辑天数(lastDay - firstDay + 1)
NActDays:有编辑活动的天数
NPages:编辑的不同页面数量
NPcreated:创建的页面数量
pagesWomen:与女性相关的页面编辑数量
wikiprojWomen:与女性相关的WikiProjects编辑数量
ns_user:用户命名空间编辑数量
ns_wikipedia:维基百科命名空间编辑数量
ns_talk:讨论命名空间编辑数量
ns_userTalk:用户讨论命名空间编辑数量
ns_content:内容页面编辑数量
weightIJ:分层IJ的校正权重
NIJ:分层IJ中的元素数量
数据来源可靠,涵盖了西班牙维基百科中大量编辑者的详细信息。
数据用途概述:
该数据集适用于多种研究场景,包括性别差距分析、编辑行为研究、维基百科多样性研究等。研究者可以利用该数据集分析西班牙维基百科中性别比例的不平衡情况,了解不同性别编辑者的编辑偏好和活跃度,为提高维基百科内容的多样性和包容性提供依据。此外,该数据集亦可用于教学、培训和科普活动,帮助公众更好地理解维基百科的编辑机制和性别差距问题。