找到9,774个数据集

标签: AI开发

过滤结果
  • 核聚变实验的模拟数据

    2025年2月13日   

    核能聚变实验的模拟数据集对于对核聚变领域感兴趣的研究人员和爱好者来说都是宝贵的资源。该数据集由 100,000 行组成,每行代表一个实验,并包含各种对于了解聚变反应成功或失败至关重要的参数。这些参数包括燃料密度、温度、约束时间、燃料纯度、能量输入、功率输出、压力和中子产量等。...
    packageimg
  • 用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

    2025年2月13日   

    该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...
    packageimg
  • PyTorch 几何外部库

    2025年2月13日   

    用于 Kaggle Env 的 PyTorch 几何外部库轮子 该数据集是 PyTorch Geometric外部库的 Python wheel 包文件(只需安装PyG即可) 。PyTorch pip install torch_geometricGeometric 是用于构建图神经网络的 torch...
    packageimg
  • GPT GCJ 数据集:检测 LLM 编写的 Java 代码

    2025年2月13日   

    来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...
    packageimg
  • DUTS 大规模图像显著性检测基准数据集

    2025年2月13日   

    DUTS 是一个大规模显著性检测数据集,包含 10,553 张训练图像和 5,019 张测试图像。所有训练图像均来自ImageNet DET 训练/验证集,而测试图像则来自 ImageNet DET 测试集和SUN 数据集。训练集和测试集都包含对显著性检测非常具有挑战性的场景。精确的像素级基本事实由 50 名受试者手动注释。
    packageimg
  • 鱼类探测(带标签)

    2025年2月13日   

    鱼类物种检测数据集是一个经过精心策划的集合,旨在开发和测试专注于识别各种鱼类物种的物体检测模型。借助此数据集,研究人员和开发人员可以利用先进的计算机视觉技术对各种水生环境中的鱼类进行分类。 数据集组成 该数据集共包含 8,242 张带注释的图像,分为十三个不同的鱼类: 神仙鱼 蓝唐 蝴蝶鱼 小丑鱼 金鱼 丝足鱼 莫里什偶像 孔雀鱼 带状甜唇 三条纹雀鲷...
    packageimg
  • Slovo:俄罗斯手语(RSL)识别的视频数据集

    2025年2月13日   

    Slovo - 俄罗斯手语数据集 我们引入了一个用于俄罗斯手语任务的大规模视频数据集Slovo。Slovo数据集大小约为16 GB,包含来自 194 位歌手的1000 个手语手势的20400 个RGB 视频。每类有 20 个样本。数据集按主题分为训练集和测试集。训练集包括 15300 个视频,测试集包括 5100 个视频。总视频录制时间约为 9.2...
    packageimg
  • PCB 缺陷数据集(带有 YOLO 注释)

    2025年2月13日   

    内容 数据集中定义的缺陷有:缺孔、鼠咬、断路、短路、毛刺、杂散铜。北京大学人机交互开放实验室发布了PCB缺陷数据集。扩充后的数据集包含10668张图片和相应的标注文件。 致谢 R. Ding、L. Dai、G. Li 和 H. Liu,“TDD-net:用于印刷电路板的微型缺陷检测网络”,载于《CAAI 智能技术学报》,第 4 卷,第 2 期,第...
    packageimg
  • 用于天气分类的多类图像

    2025年2月12日   

    用于图像分类的多类天气数据集 (MWD) 是研究论文《使用异构集成方法从静态图像中进行多类天气识别》中使用的宝贵数据集。该数据集通过提取各种特征来识别不同的天气状况,为户外天气分析提供了一个平台。
    packageimg
  • 淡水鱼疾病(南亚水产养殖)

    2025年2月12日   

    包含 500 多张南亚鱼类图像的淡水鱼疾病检测数据集 该数据旨在建立基于深度学习的鱼类皮肤图像疾病识别模型,从而帮助水产养殖。数据集中共有 7 类 细菌性疾病 - 气单胞菌病 。共有 250 张图片。 细菌性鳃病。图片总数 250 细菌性红病。图片总数 250 真菌病. 水霉病 图像总数 250 健康的鱼。图片总数 250 寄生虫病。图片总数 250...
    packageimg
  • 香蕉叶斑病 (BananaLSD) 数据集

    2025年2月12日   

    香蕉种植经常受到各种疾病的挑战,这些疾病严重影响产量。这些疾病对香蕉植株造成不利影响,导致生长受阻、果实产量下降,甚至植株死亡。其后果是深远的,因为受感染的植株难以结出可销售的果实,导致香蕉种植者遭受经济损失,并有可能扰乱全球香蕉供应。 数据集中的香蕉叶斑病 该数据集包含多种图像,展示了三种主要的香蕉叶斑病,即: 叶斑病 科达娜...
    packageimg
  • HotpotQA维基百科问答数据集

    2024年11月10日   

    HotpotQA 是收集在英语维基百科上的问答数据集,包含大约 113K 众包问题,这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落,以及这些段落中的句子列表,众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略,包括涉及问题中缺失实体的问题、交叉问题(什么满足属性 A...
    packageimg
  • CommonsenseQA文本问答数据集

    2024年11月10日   

    CommonsenseQA 是常识问答任务的数据集。该数据集由 12,247 个问题组成,每个问题有 5 个选项。数据集是由 Amazon Mechanical Turk 工作人员在以下过程中生成的(括号中提供了一个示例):人群工作人员从 ConceptNet(“河流”)和三个目标概念(“瀑布”、“桥梁”、“ Valley”)都通过相同的...
    packageimg
  • XQuAD

    2024年11月10日   

    XQuAD(Cross-lingual Question Answering Dataset)是评估跨语言问答性能的基准数据集。该数据集包含来自 SQuAD v1.1(Rajpurkar 等人,2016 年)开发集的 240 个段落和 1190...
    packageimg
  • MathQA

    2024年11月10日   

    本数据集是通过使用一种新的表示语言对 AQuA-RAT 数据集进行注释来收集的。 AQuA-RAT 提供了问题、选项、理由和正确选项。
    packageimg
  • FinQA财务文本数据集

    2024年11月10日   

    FinQA 是一个新的大型数据集,由财务专家编写,在财务报告中包含问答对。该数据集包含 8,281 个财务 QA 对,以及它们的数值推理过程。
    packageimg
  • PERSONA-CHAT对话数文本据集

    2024年11月10日   

    PERSONA-CHAT 数据集,这是一个新的对话数据集,由随机配对的众包工作人员之间的 162,064 个话语组成 并且每个人都要求扮演给定的角色(随机分配,由另一组众包创建)。配对的工人被要求自然地聊天,并在谈话中相互了解。这会产生有趣且引人入胜的对话,我们的代理可以尝试学习模仿。
    packageimg
  • SQuAD (Stanford Question Answering Dataset)问答数据集

    2024年11月10日   

    斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集,由众包工作人员在一组维基百科文章中提出的问题组成,其中每个问题的答案都是相应阅读文章或问题的一段文本或跨度可能无法回答。
    packageimg