数据集概述
本数据集是论文《Language Bias in the Google Scholar Ranking Algorithm》的配套数据,用于研究Google Scholar排名算法中的语言偏见问题。通过反向工程和统计分析方法,探究非英文发表的学术文献在多语言搜索中的排名位置差异,涉及作者、年份、关键词等维度的分析数据,共包含3个文件。
文件详解
- 文件名称:data-set-authors-v2.xlsx
- 文件格式:XLSX
- 字段映射介绍:围绕作者维度的研究数据,可能包含作者所属语言区域、文献发表语言、搜索排名位置等与语言偏见相关的统计信息
- 文件名称:data-set-years-v2.xlsx
- 文件格式:XLSX
- 字段映射介绍:围绕年份维度的研究数据,可能包含不同年份发表的不同语言文献在搜索结果中的排名分布、可见性变化等统计信息
- 文件名称:data-set-keywords-v2.xlsx
- 文件格式:XLSX
- 字段映射介绍:围绕关键词维度的研究数据,可能包含相同关键词下不同语言文献的排名位置差异,尤其是英文与其他语言表达一致的术语(如商标、化合物、缩写等)相关文献的排名情况
数据来源
论文《Language Bias in the Google Scholar Ranking Algorithm》(Future Internet, 2021, 13)
适用场景
- 搜索引擎算法公平性研究:分析Google Scholar排名算法对非英文文献的系统性偏见及影响机制
- 学术文献可见性分析:探究文献发表语言对其在学术搜索引擎中曝光度和获取率的影响
- 学术信息检索优化:为非英文发表的学术文献提供提升搜索排名可见性的策略参考
- 多语言学术资源评估:支持不同语言学术资源在全球学术传播中的公平性评估研究