-
使用 peft 和 lora 进行 LLM 微调的合成数据
2025年2月14日 200 182 80
该数据集包含对话摘要、主题和对话,用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道,这是一种流行且轻量级的训练技术,可显着减少可训练参数的数量。 该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum -
本地登革热疫情
2025年2月14日 380 124 106
登革热是一种蚊媒疾病,发生在世界热带和亚热带地区。轻度病例的症状与流感相似:发烧、皮疹、肌肉和关节疼痛。重度病例可导致严重出血、低血压,甚至死亡。 由于登革热是由蚊子传播的,因此其传播动态与气温和降水等气候变量有关。尽管与气候的关系很复杂,但越来越多的科学家认为,气候变化可能会造成分布变化,从而对全球公共卫生产生重大影响。... -
混凝土强度数据集
2025年2月14日 210 126 68
混凝土抗压强度数据集: 该数据集包含混凝土抗压强度的数据,这是建筑施工中的关键因素。它包括影响混凝土整体强度的各种输入参数,例如水泥含量、水比和养护年龄等。该数据集非常适合回归分析和机器学习模型开发,可根据输入变量预测混凝土强度。 功能描述: 水泥成分: 描述:此特征代表混凝土混合物中使用的水泥量。... -
DEAP解读环境空气污染:用于研究城市空气污染的大规模时空数据
2025年2月14日 367 161 121
这是在IJCAI 2022的 AI for Good Track上发表的论文《使用大规模城市数据解读环境空气污染》的数据集。该论文获得了该 Track 的最佳论文奖。 [ Github Repo ] 该数据集引入了一个大规模时空数据集,涉及城市空气污染的所有主要参与者。该数据集结合了多种来源,以获取研究城市空气污染所必需的信息 -... -
罗斯科学文章/Рус научные статьи
2025年2月14日 318 92 11
从 eLibrary.ru 网站下载了 2,478 篇俄语科学文章,这些文章被分为顶级 GRNTI(国家科学技术信息分类表)的 62 个标题。eLibrary.ru。网站上的期刊目录包含 71 个 GRNTI 类别,我选择了其中有足够数量的科学期刊和文章属于公共领域的类别。 标题位于说明的末尾。 下载了 pdf 文件,将其转换为 txt... -
《老友记》电视节目抄录:《老友记》每一集的台词排序
2025年2月14日 364 66 1
创建此数据集的目的是构建一个分类器,确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。 内容 里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段,让其他人可以轻松入门。 数据来自 每集的原始记录最初都是从这里抓取的:https : //fangj.github.io/friends/。Jorge Nachtigall -
包含“绿色氢”文章标题的数据集
2025年2月14日 176 116 52
该数据集包含从 CNBC 和 Google RSS 网站抓取的数据 - 其中包含“绿色氢”的文章标题。此外,还包含日期、文章所涉及的组织名称及其情感分数,可用于比较每篇文章。 -
英语至阿萨姆语平行数据集
2025年2月14日 287 192 113
此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集 -
建立团队的分析方法:原神角色列表 5.2 版
2025年2月14日 200 144 94
该数据集包含《原神》5.2 版以来的所有角色 创建此数据集是为了让像我这样的有抱负的数据分析师能够以独特而有趣的方式练习处理数据。下载数据集的用户可以练习使用数据可视化,并在玩《原神》时根据自己的需求快速访问角色信息。 -
新加坡不同美食区休息日统计
2025年2月13日 30 182 173
标题:探索新加坡美食区的休息日全景 数据内容:这个数据集详细描述了新加坡多个美食中心的休息日安排和关闭时间。数据包括各美食中心的名称、具体关闭日期及相关比例信息。同时,还包含美食中心的建筑历史、地理位置、摊位数量及提供的食物种类的详细描述。 数据来源:互联网公开数据... -
用于 NLP 任务的高质量金融新闻数据集
2025年2月13日 367 188 76
此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段:... -
用于文本检测的尼泊尔手写图像:各个年龄段的详尽文本数据集
2025年2月13日 400 208 129
尼泊尔手写数据集 (NHD),它是尼泊尔各个地区用相机捕捉的尼泊尔手写文本图像的集合。该数据集旨在为研究人员探索手写检测和识别新技术提供基准。我们还提供了使用成熟的深度学习框架进行文本定位和识别的基准结果。数据集和基准结果可在此处获得。 主要特点:... -
皮肤癌 - HAM10000:常见色素性皮肤病变的多源皮肤镜图像
2025年2月13日 300 145 59
包含3个文件夹和2个文件组成,如下表所述。 内容 类型 描述 HAM10000_images_part_1 文件夹 一组训练图片的第一部分 HAM10000_images_part_2 文件夹 一组训练图片的第二部分 ISIC2018_Task3_Test_Images 文件夹 测试图片集 HAM10000_metadata.csv 文件... -
全球陆地的视觉探索:国家实际面积数据集
2025年2月13日 400 34 0
该数据集提供了各国及其各自陆地和水域面积的综合列表。它包括墨卡托投影所描绘的国家大小与其真实地理比例的详细比较。该数据集的灵感来自传统地图投影的局限性,旨在更准确地表示全球陆地。 一个 CSV 文件,包含国家列表、其陆地面积、水域面积、总面积和水域面积百分比。 -
美国调查和蜜蜂数量普查数据
2025年2月13日 300 107 16
该数据集提供了对美国农业部国家农业统计局快速统计数据集捕获的丰富而广泛的蜜蜂群落贡献信息的访问。在这里,您可以找到按州划分的调查数据和按县划分的人口普查数据,这些数据有助于为与养蜂实践相关的决策和研究提供信息。 关于此文件 建议编辑 该文件包含冬季期间损失的蜂群总数、各州养蜂人和蜂群数量以及各州独有的养蜂人和蜂群数量的数据... -
geoleaderboard 网站上使用的排行榜数据
2025年2月13日 170 1 0
该数据集为geoleaderboard 网站提供全面的排行榜数据,每日更新。它包括排名、用户名、国家、评级、分区、移动评级、无移动评级和 NMPZ 评级等列。非常适合跟踪玩家表现并分析 GeoGuessr 游戏中的模式。 -
揭开社交媒体的情感面纱:Twitter 情感数据集
2025年2月13日 378 98 55
利用我们精心整理的数据集,深入了解通过 Twitter 消息表达的人类情感的复杂世界。这个综合集合中的每个条目都包含从 Twitter 中提取的一段文本,并附有相应的标签,表示消息传达的主要情感。情绪被精心分为六个不同的类别:悲伤 (0)、快乐 (1)、爱 (2)、愤怒 (3)、恐惧 (4) 和惊讶 (5)。... -
核聚变实验的模拟数据
2025年2月13日 290 94 55
核能聚变实验的模拟数据集对于对核聚变领域感兴趣的研究人员和爱好者来说都是宝贵的资源。该数据集由 100,000 行组成,每行代表一个实验,并包含各种对于了解聚变反应成功或失败至关重要的参数。这些参数包括燃料密度、温度、约束时间、燃料纯度、能量输入、功率输出、压力和中子产量等。... -
植物疾病检测数据集
2025年2月13日 170 88 70
植物疾病数据集由印度理工学院的一组研究人员创建,最初在一篇研究论文中进行了描述。其中一位作者 Pratik Kayal 已在GitHub上分享了该数据集,可供公众使用。PlantDoc 数据集包含 13 种不同植物物种的总共 2,569 张图像。该数据集分为 30 个不同的类别,标签指示每张图像是健康的还是患病的。数据集内共有 8,851... -
用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集
2025年2月13日 300 21 1
该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...