-
ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集
2026年1月21日 30 173 37
数据集概述 本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA,通过大语言模型自动化框架构建,包含181,976条标注为支持、反驳或信息不足的主张-证据对,可用于阿拉伯语自动事实核查模型训练与评估。 文件详解 文件名称:ARAFA.json 文件格式:JSON...
-
AndroZooOpen_Based_大规模开源Android应用研究数据集
2026年1月20日 30 162 106
数据集概述 本数据集为论文配套的原始收集数据,包含面向研究社区的大规模开源Android应用资源,以压缩包形式提供,支持Android应用相关的学术研究与技术分析。 文件详解 文件名称:AndroZooOpen.zip 文件格式:ZIP...
-
Data_management_Based_生物学家数据管理与研究机构角色研究数据
2026年1月15日 30 128 63
数据集概述 本数据集围绕生物学家的数据管理、归档与共享展开,探讨技术导向时代下研究机构的角色。内容涵盖数据管理重要步骤、长期保存意义,通过联合数据归档政策和Dryad数字库说明数据归档趋势,分析数据整合与大规模数据集限制对新发现的影响,并提出提升数据保存率的解决方案。 文件详解 文件名称:webofscience_update_2017.zip...
-
Zenodo_GraspNet_1Billion_Based_通用物体抓取基准测试完整数据集
2025年12月19日 30 1 0
数据集概述 该数据集为通用物体抓取任务的大规模基准数据集GraspNet-1Billion的元数据记录,因文件总大小超120GB无法直接存储于Zenodo,提供稳定DOI指向原创建者维护的官方下载地址,支持通用物体抓取相关研究与评估。 文件详解 Meta_data.pdf: PDF格式,为数据集的元数据文档,记录数据集的基本信息及官方下载链接。...
-
ProtBAG_科学研究图表脚本数据集_Based_ProtBAG研究数据_说明_1_主题_时间_保留核心主题_ProtBAG_结合_图表脚本_的中文性质...
2025年12月14日 0 114 20
数据集概述 本数据集包含ProtBAG相关的原始图表、方法学实验脚本及大规模数据集。数据格式以PDF图表文件和ZIP压缩文件为主,覆盖研究中使用的可视化成果、实验代码及模型文件,为复现研究结果提供支持。 文件详解 该数据集包含8个文件,具体说明如下: - PDF图表文件(共5个): -...
-
编程竞赛Java代码抄袭数据集_ConPlag
2025年12月8日 30 35 30
数据集概述 该数据集为ConPlag,是首个聚焦编程竞赛场景的Java代码抄袭数据集,包含相关代码抄袭数据及配套说明文档,为编程竞赛作弊检测研究提供基础数据支持。 文件详解 文件名称:conplag.zip 文件格式:ZIP压缩包...
-
-
数据4600万域名数据集
2025年6月1日 30 194 155
数据4600万域名数据集 数据来源:互联网公开数据 标签:域名,互联网,大规模数据集,网络分析,爬虫技术,数据挖掘,机器学习 数据概述: 本数据集包含来自Common Crawl项目的4600万个域名及其相关信息,每个域名记录了其访问量、大小等关键指标。数据集基于Common...
-
MovieLens电影评分与用户标签数据集-2023年10月收集-2024年5月发布
2025年5月31日 30 52 36
MovieLens电影评分与用户标签数据集-2023年10月收集-2024年5月发布 数据来源:互联网公开数据 标签:电影评分,用户标签,推荐系统,电影,用户行为,大规模数据集,MovieLens 数据概述: MovieLens...
-
大规模偏好数据集-语言模型对齐奖励与评论模型训练2021-thedevastator
2025年5月31日 30 23 7
大规模偏好数据集-语言模型对齐奖励与评论模型训练2021-thedevastator 数据来源:互联网公开数据 标签:大规模数据集,偏好数据,语言模型,人工智能,奖励模型,评论模型,机器学习,训练数据,教育,研究 数据概述:...
-
互联网公开数据大规模多标签数据集
2025年4月8日 31 61 49
标题:互联网公开数据大规模多标签数据集 数据内容: 该数据集包含以下数据元素: 1. noamsegal:标识数据记录的唯一标识符,共有28,175种不同值。 2. pth:可能表示路径或位置信息,共有28,175种不同值。 3. label:数据记录的标签,共有8种不同值,用于分类或标注。 4....



