GitHub开发者社交网络数据集-2019年6月-gitanjali1425
数据来源:互联网公开数据
标签:GitHub,社交网络,开发者,数据分类,链接预测,社区检测,网络可视化
数据概述:
该数据集是2019年6月从GitHub公开API收集的GitHub开发者社交网络。节点代表最多关注10个仓库的开发者,边代表开发者之间的相互关注关系。节点特征基于开发者的地理位置、关注的仓库、雇主和电子邮件地址提取。该图相关的任务是二元节点分类——预测GitHub用户是Web开发者还是机器学习开发者。该标签特征是从每个用户的职位头衔中推导出来的。
数据集的属性如下:
- 有向性:否
- 节点特征:有
- 边特征:无
- 节点标签:有(二元标签)
- 时间属性:无
- 节点数:37,700
- 边数:289,003
- 密度:0.001
- 传递性:0.013
数据用途概述:
该数据集适用于多种分析任务,包括二元节点分类、链接预测、社区检测和网络可视化。研究人员可以利用此数据集进行开发者类型的分类预测,预测开发者之间的潜在联系,识别社交网络中的社区结构,以及可视化社交网络的总体结构。教育机构和研究者可以使用此数据集进行社交网络分析和机器学习教学。