-
NNSeval_Based_非母语者词汇简化评估数据集
2026年2月9日 30 93 86
数据集概述 本数据集基于针对非母语者的词汇复杂度用户研究构建,包含400名非母语者对维基百科、LSeval和LexMTurk来源句子中内容词的理解度标注结果,经筛选优化后形成NNSeval数据集,可用于评估词汇简化系统对非母语者的适用性。 文件详解 文件名称:NNSeval.zip 文件格式:ZIP...
-
SEEK_Based_软件工程教育知识与工业需求差距研究数据集
2026年2月9日 30 65 35
数据集概述 本数据集为研究论文配套数据,聚焦2014年IEEE/ACM软件工程教育知识体系(SEEK)与工业需求的差距。通过分析Stack Overflow帖子引用的维基百科文章,结合从业者调查,探究SEEK对行业需求的覆盖程度、知识单元与文章热度的关系及待补充领域。 文件详解 压缩包文件:wiki-so-posts.zip 文件格式:ZIP...
-
WWW2020_Based_Web表格新实体发现实验复现资源
2026年2月8日 30 65 2
数据集概述 本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源,包含三个用于Web表格新实体发现、实体类型与提及解析的测试集,以及300万张表格的提及-实体、标题-属性对应关系数据,支持论文中实体链接、表格匹配、实体解析实验的复现。 文件详解 压缩包文件...
-
Wikimedia_数学表达式去重列表数据
2026年2月2日 30 27 11
数据集概述 本数据集包含维基媒体所有项目(含维基百科)中使用的全部数学表达式的去重列表。数据以JSON格式存储,键为输入内容的MD5哈希值,值为从维基文本源中提取的数学表达式内容。数据集可用于数学表达式的标准化、知识图谱构建等场景,仅包含一个文件。 文件详解 文件名称:wmf_texvc_inputs.json 文件格式:JSON...
-
维基百科网站流量日度时间序列数据集_含缺失值
2026年2月1日 30 169 73
数据集概述 本数据集包含145063条时间序列数据,记录2015年7月1日至2022年6月30日期间维基百科页面的日度访问量(含缺失值)。数据基于Kaggle维基百科流量预测竞赛使用的页面范围扩展而来,文章名称中的冒号已替换为短横线以适配.tsf文件加载器,可用于网页流量趋势分析与预测研究。 文件详解...
-
Pilot_3_Based实验叙事多媒体资源数据
2026年1月31日 0 71 22
数据集概述 本数据集为Pilot 3实验提供关联场馆的多媒体资源,用于构建面向参与者的叙事内容,包含文本、图像、音视频等多种格式素材,部分素材来自博物馆原始数据及维基百科等开放平台,遵循MPEG-7元数据标准,支持实验场景中的内容展示需求。 文件详解 文件名称:multimedia_content.xlsx 文件格式:XLSX...
-
加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版
2026年1月31日 30 64 45
数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
-
SIMPITIKI_GITHUB_意大利语文本简化语料库数据
2026年1月29日 30 36 2
数据集概述 本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称:simpitiki-v2.xml 文件格式:XML...
-
Wikipedia_Based_英文论坛讨论关闭记录数据_2023
2026年1月27日 30 84 20
数据集概述 本数据集整理了2023年12月(部分低流量论坛扩展至同年9-11月)英文维基百科8个论坛的讨论关闭记录,排除未正式关闭及程序性质疑的讨论,共包含1个文件,用于分析维基百科社区讨论的处理情况。 文件详解 文件名称:Discussion coding WDC feb 25.xlsx 文件格式:XLSX...
-
GReduced_Based_维基百科地缘政治联系分析数据_2013
2026年1月25日 30 113 40
数据集概述 本数据集为论文“Capturing the influence of geopolitical ties from Wikipedia with reduced Google...
-
wiki_PP_Based_维基百科页面保护对文章质量影响研究_数据与代码
2026年1月21日 30 138 37
数据集概述 本数据集为论文《Protection from Evil and Good: The Differential Effects of Page Protection on Wikipedia Article...
-
UK_based_think_tanks_英国本土智库信息数据库_2020版
2026年1月20日 30 89 8
数据集概述 本数据集为英国本土智库数据库,包含163家英国智库的基础信息,涵盖成立年份、解散或合并年份、主要研究领域、教育相关重点、描述、政治立场等核心内容,由多来源信息交叉核验并于2020年更新,为研究英国智库生态提供结构化参考。 文件详解 文件名称:UK-based think-tanks database.xlsx 文件格式:XLSX...
-
Aircraft_Crashes_Based_在线注意力动态与偏差研究数据集
2026年1月20日 30 10 1
数据集概述 本数据集围绕空难事件的在线注意力动态与偏差展开研究,利用英文和西班牙文版维基百科的事务数据,分析编辑活动和文章浏览量。核心探讨死亡人数、航空公司区域、事件地点与日期等参数对注意力水平的影响,揭示不同语言版本维基百科中注意力的区域偏差及衰减规律。 文件详解 压缩文件 文件名称:dataset_journal.zip 文件格式:ZIP...
-
Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库
2026年1月5日 30 93 43
数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
-
Wikipedia_editors_interviews_讨论关闭行为研究数据集
2026年1月15日 30 111 108
数据集概述 本数据集收集了2023-2024年参与英文维基百科讨论关闭的编辑的访谈响应。通过邮件或用户讨论页邀请2023年9月至2024年2月期间执行过讨论关闭的编辑参与调查,167名被联系者中有67人参与。数据集为版本2,已移除含潜在可识别信息的两列数据,共包含1个文件。 文件详解 文件名称:WDC - Closers_February 28,...
-
Wikimedia_Education_Program_Extension历史存档数据
2026年1月14日 30 175 77
数据集概述 本数据集是维基媒体基金会开发的MediaWiki软件“教育项目扩展计划”的归档数据,该扩展曾支持维基百科教育项目,用于跟踪管理学生、教师等编辑群体。数据涵盖维基百科、维基学院等多平台18种语言的教育项目,2011年启动后于2018年停用,现提供历史项目查询。 文件详解 文件名称:Versão bruta Extensão Programas...
-
气候变化讨论页情感与毒性评分数据集_基于GraWiTas视角_VADER模型及维基百科数据
2026年1月12日 30 37 31
数据集概述 本数据集来自RWTH Aachen大学计算社会系统硕士项目,包含维基百科“气候变化”讨论页的原始数据及处理后的情感、毒性评分数据。原始数据通过GraWiTas工具解析为JSON格式,处理后数据使用VADER计算情感得分、Google Perspective API计算毒性得分,可用于研究气候变化讨论的文本特征与情感倾向。 文件详解...
-
Database_of_Citizen_Science_Projects_Based_公民科学项目汇总数据
2025年12月30日 30 188 134
数据集概述 本数据集为公民科学项目数据库,收录来自维基百科公民科学项目列表、SciStarter平台及ACTION联盟成员贡献的项目信息,包含医学相关关键词“ct”。数据集仅含一个Excel文件,无目录结构与数据拆分。 文件详解 文件名称:ProjectCollection.xlsx 文件格式:XLSX...
-
冰岛霍夫迪楼数据集
2025年12月24日 30 124 66
数据集概述 本数据集围绕冰岛霍夫迪楼(Höfði)展开,该建筑因1986年美国与苏联雷克雅未克峰会在此举行而闻名。数据集包含该建筑的模型文件与图片文件,为了解霍夫迪楼的外观特征提供直观资料。 文件详解 三维模型文件: 961bb7970da24888a0e1868ff32e99cf.glb:GLB格式,可能为霍夫迪楼的三维模型文件 图片文件:...
-
德国霍恩埃肯城堡三维模型与图片数据集
2025年12月23日 30 65 50
数据集概述 本数据集包含德国霍恩埃肯城堡的三维模型文件及配套图片,基于YouTube视频和维基百科资料建模,涵盖城堡外观的视觉呈现与三维结构数据,为城堡相关的数字化展示或研究提供基础素材。 文件详解...



