数据集概述
该数据集基于2015年9月17日DBLP数据库快照,包含7个ACM SIGWEB会议(HT、DL、DocEng、WebSci、CIKM、WSDM、UMAP)的所有出版物、作者及关联元数据,以SQL文件形式存储15张结构化数据表,支持学术出版相关分析。
文件详解
- 文件名称: DBLP-SIGWEB.zip
- 文件格式: ZIP压缩包
- 解压后核心内容: 包含一个可在MySQL中创建15张数据表的SQL文件,各表及字段如下:
- 论文表(papers):dblp_key(DBLP出版物唯一ID)、crossref(DBLP会议唯一ID)、doi(DOI链接)、paper_id(ACM DL文章ID)、cite_count(引用数)等
- 论文作者表(paper_authors):author_id(ACM DL作者ID)、affiliation(作者单位)
- 概念表(concepts):concept(ACM标注的文章概念)
- 作者标签表(author_tags):author_tag(作者提供的关键词/标签)
- 被引表(cited_by):paper_id(被引文章ACM ID)、cite_id(引用文章ID)
- 论文参考文献表(paper_references):refer_id(被引会议文章ID)
- 会议表(conferences):dblp_key(DBLP会议ID)、year(会议年份)、publisher(出版社)等
- 组委会表(general_chairs/program_chairs/editors):author_id(作者ID)、affiliation(单位)
- 作者单位历史表(authors_affiliation_history):author_id(作者ID)、position(单位索引)、affiliation(单位列表)
- 同事表(colleagues):author_id(作者ID)、colleague_id(合作作者ACM ID)
- 作者信息表(authors_info):author_name(作者姓名)、year_first(首次发表年份)、pub_count(发表总数)等
- 单位信息表(affiliations_info):affiliation(单位名称)、affiliation_type(单位类型)、city/state/country(地理位置)等
- 录用率表(acceptance rate):conf_id(会议ACM ID)、submitted(投稿数)、accepted(录用数)、rate(录用率)
适用场景
- 学术出版分析:研究SIGWEB会议的论文产出、引用情况及学术影响力
- 作者网络研究:分析会议作者的合作关系、单位分布及学术轨迹
- 会议趋势研究:探究会议录用率、出版机构及主题概念的年度变化
- 地理信息分析:基于作者单位的地理位置数据,研究全球学术协作分布
- 文献计量学研究:利用DOI、引用计数等字段开展文献引用网络分析