数据集概述
本数据集包含2010-2022年软件工程领域3个会议(ICSE、ASE、FSE)和2个期刊(IEEE TSE、ACM TOSEM)的研究论文数据,以及程序/组织委员会成员、编辑委员会成员名单。数据经NamSor处理得到作者及委员会成员的种族和性别信息,通过Scopus获取第一作者所属机构及国家,共25个文件,以CSV格式为主。
文件详解
- 论文基础数据文件
- 命名示例:
ASE_2022_papers.csv、ICSE_2021_papers.csv
- 文件格式:CSV
- 字段映射:包含论文类型、作者、标题、发表年份、页码、出版商、会议/期刊名称、发表日期、ISBN、URL、DOI、子类型等基础元数据
- 作者及委员会成员属性文件
- 命名示例:
authors_with_gender_ethnicity.json、all_name_gender_namsor.csv、all_name_ethnicities_namsor.csv
- 文件格式:JSON、CSV
- 字段映射:记录作者及委员会成员姓名对应的性别(通过姓名预测)、种族(Name US Race特征)信息
- 机构与地域数据文件
- 命名示例:
all_doi_affiliation_citation_count.csv、all_affiliations_with_continents.csv
- 文件格式:CSV
- 字段映射:包含论文DOI对应的作者机构、引用量,以及机构所属大洲等地域信息
- 委员会成员名单文件
- 命名示例:
ASE_2010_2022_OrganizingCommittee.csv
- 文件格式:CSV
- 字段映射:记录特定会议(如ASE)2010-2022年组织委员会成员名单
- 综合数据文件
- 命名示例:
compiled_paper_data_all_conf_journals.json
- 文件格式:JSON
- 字段映射:整合所有会议和期刊的论文数据,包含基础元数据、作者信息等综合内容
数据来源
论文“Diversity in Software Engineering Conferences and Journals”(2023年10月提交至Journal of Systems and Software)、DBLP、会议官网/期刊首页、NamSor、Scopus数据库
适用场景
- 软件工程领域多样性分析:研究会议/期刊作者、委员会成员的性别、种族分布特征及变化趋势
- 学术出版地域分布研究:分析第一作者所属机构的国家及大洲分布,探索全球参与度差异
- 学术会议期刊对比研究:比较不同会议、期刊在作者多样性、论文产出等方面的差异
- 学术群体结构分析:探究软件工程领域程序委员会、编辑委员会的组成结构与多样性水平
- 学术数据整合应用:为软件工程领域的元分析、趋势预测提供标准化的多维度数据集支持