数据集

Google_Scholar_Based_排名算法语言偏见研究数据集2021

数据集概述

本数据集是论文《Language Bias in the Google Scholar Ranking Algorithm》的配套数据，用于研究Google Scholar排名算法中的语言偏见问题。通过反向工程和统计分析方法，探究非英文发表的学术文献在多语言搜索中的排名位置差异，涉及作者、年份、关键词等维度的分析数据，共包含3个文件。

文件详解

文件名称：data-set-authors-v2.xlsx
文件格式：XLSX
字段映射介绍：围绕作者维度的研究数据，可能包含作者所属语言区域、文献发表语言、搜索排名位置等与语言偏见相关的统计信息
文件名称：data-set-years-v2.xlsx
文件格式：XLSX
字段映射介绍：围绕年份维度的研究数据，可能包含不同年份发表的不同语言文献在搜索结果中的排名分布、可见性变化等统计信息
文件名称：data-set-keywords-v2.xlsx
文件格式：XLSX
字段映射介绍：围绕关键词维度的研究数据，可能包含相同关键词下不同语言文献的排名位置差异，尤其是英文与其他语言表达一致的术语（如商标、化合物、缩写等）相关文献的排名情况

数据来源

论文《Language Bias in the Google Scholar Ranking Algorithm》（Future Internet, 2021, 13）

适用场景

搜索引擎算法公平性研究：分析Google Scholar排名算法对非英文文献的系统性偏见及影响机制
学术文献可见性分析：探究文献发表语言对其在学术搜索引擎中曝光度和获取率的影响
学术信息检索优化：为非英文发表的学术文献提供提升搜索排名可见性的策略参考
多语言学术资源评估：支持不同语言学术资源在全球学术传播中的公平性评估研究

数据与资源

4463201.zipZIP
0.48 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.48 MiB
最后更新	2026年1月20日
创建于	2026年1月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。