-
OCNLI中文自然语言训练数据集
OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库,紧密按照MNLI的程序收集,但具有增强的策略,旨在实现更具挑战性的推理对。我们想强调的是,我们在创建数据集时没有使用人机翻译,因此我们的中文文本是原创的,没有翻译。
-
ETT (Electricity Transformer Temperature)
电力变压器温度 (ETT) 是电力长期部署的关键指标。该数据集由来自中国两个分离县的2年数据组成。为了探索长序列时间序列预测 (LSTF) 问题的粒度,创建了不同的子集,{ETTh1,ETTh2} 为1小时级,ETTm1为15分钟级。每个数据点由目标值 “油温” 和6个功率负载特征组成。火车/val/测试为12/4/4个月。
-
SST (Stanford Sentiment Treebank)
斯坦福情感库是一个带有完全标记的解析树的语料库,可以全面分析情感在语言中的构成影响。该语料库基于 Pang 和 Lee (2005) 引入的数据集,由从电影评论中提取的 11,855 个单句组成。它使用斯坦福解析器进行解析,包括来自这些解析树的总共 215,154 个独特的短语,每个短语由 3...
-
高校调查问卷文本数据集
高校学子在填写志愿时对目标高校校园生活往往并不了解,此项目志在帮助各学子通过在校学长学姐的亲身体验经验提前了解校园生活的方方面面。该数据是经过大模型处理过的数据,可以直接用于训练AI模型或用于RAG的数据集
-
机器设备故障数据集
本数据集包含多个关键性能指标,这些指标反映了机器在运行过程中的多种状态和环境因素。 利用本数据集分析机器在不同操作条件下的性能数据,可以为机器的维护、优化和故障预测提供数据支持。
-
感应电机热图像数据集
数据集: thermal-images-equip 该数据集包含了在电气设备(感应电机和变压器)状态监测背景下的热成像数据,主要用于检测设备内部的故障。所有故障均为工件生成的内部故障,不依赖外部因素或初始电气组件故障。
-
GeoQA (Geometric Question Answering)
GeoQA 是一个用于自动解决几何问题的数据集,包含 5,010 个几何问题和相应的注释程序,说明了给定问题的解决过程 与另一个公开可用的数据集 GeoS 相比,GeoQA 大 25 倍,其中程序注释可以提供实用的未来研究明确和可解释的数值推理的测试平台。
-
-
DRCD (Delta Reading Comprehension Dataset)
一个数据集,其中包含 2,221 个来自不同学科(历史、生物学、地理和哲学)的十二年级入学考试的问题,以及来自历史在线测验的 412 个附加问题。
-
SFT多轮中文对话文本数据集
SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献,每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。 数据组成...
-
综合性食谱语料库
完整的食谱语料库包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符,最小长度为10个字符。食谱由415,272位作者贡献。其中,最有生产力的作者上传5,394食谱。
-
-
ChemData700K
ChemData700K 是一个包含了九项化学核心任务,730K个高质量问答的大语言模型化学能力指令微调数据集.ChemData是大模型语料数据联盟成员单位上海人工智能实验室 AI for Science团队精心构建的大规模数据集,旨在为化学语言模型的微调提供支持,从而提高、释放其全部化学潜力。
-
全国产业园区经纬度数据(2024年)
数据名称:全国产业园区经纬度数据(2024年) 数据范围:2024年全国产业园区经纬度数据 数据时间:2024年1月 数据说明:数据包含2024年1月全国产业园区经纬度数据;数据格式为DTA 数据来源:互联网数据
-
疾病分类与代码国家临床版2.0
此数据不仅可作为疾病与死因分类的培训教材,也是指导广大卫生统计人员、病案人员、医务工作者、信息技术人员和管理人员正确理解和使用新的国家标准的工具书和参考书;对提高我国疾病分类水平,提升统计数据质量,规范医疗服务管理,促进统计和信息化建设都将发挥十分重要的作用。
-
智能手机使用和行为数据集
该数据集深入了解了 1,000 名用户的日常移动设备使用模式,涵盖了屏幕时间、应用程序使用情况以及不同应用程序类别的用户参与度等方面。它涵盖了基于年龄、性别和地点的多样化用户。数据主要关注应用程序的总体使用情况、在社交媒体、生产力和游戏应用程序上花费的时间以及总体屏幕时间。
-
-
预测性维护 NASA 涡扇发动机数据集
事实证明,深度学习在某些领域(例如对象识别和图像分类)表现出色。它在金融等领域也越来越受欢迎,因为时间序列数据在其中发挥着重要作用。预测性维护也是一个领域,它会随时间收集数据以监控资产的状态,目的是找到预测故障的模式,这也可以从某些深度学习算法中受益。在深度学习方法中,长短期记忆 (LSTM)...
-
用于 LLM 微调的土耳其农业数据集
该数据集旨在微调 T3 AI 土耳其语 LLM。它由 Barathan Aslan、Ömer Faruk Çelik 和 Batuhan Kalem 为 T3 AI Hackathon 创建。该数据集专注于土耳其农业。
-
微型燃气轮机的电能预测
该数据集包括从一台 3 千瓦商用微型燃气轮机收集的与输入控制信号相对应的电功率随时间变化的测量值。 该数据集包含八个时间序列,描述了燃气轮机在不同条件下的行为。每个时间序列代表一个单独的实验,其中输入控制电压随时间变化,并测量微型燃气轮机由此产生的输出电功率。时间序列的持续时间从 6,495 到 11,820 个数据点不等,分辨率约为 1...



