-
电子商务分析:Swiggy、Zomato、Blinkit
📌 概述 该数据集提供了有关电子商务杂货配送服务的详细见解,重点关注 Blinkit、Swiggy Instamart 和 JioMart。它包括客户反馈、配送时间、服务评级以及影响配送绩效的各种因素。该数据集可用于分析客户满意度、识别服务趋势和优化配送物流。 📍 主要功能 📍 订单 ID – 每个订单的唯一标识符。 📍 平台 –...
-
-
新加坡火车站名称统计
标题:揭开新加坡火车站名称的神秘面纱 数据内容:数据集包含新加坡火车站的中文名称,对应多个捷运站及专线简体中文名称。列出了车站代码、各站的中文名称(包括台湾繁体和大陆简体)、所在的捷运专线及对应的线路名称。此数据集中的数据旨在详细统计并对比不同火车站在不同版本中文中的译名区别。 数据来源:互联网公开数据...
-
ML in healthcare patent 医疗保健专利数据集
机器学习和医疗保健专利数据集是与机器学习和医疗保健创新交叉相关的专利记录的综合集合。该数据集是使用搜索查询「机器学习和医疗保健」从 Google Patents 中整理出来的,其中包括医学成像、诊断工具、 AI 驱动的治疗建议等各个领域授予的专利。 该数据集旨在利用自然语言处理 (NLP) 、技术分析和 AI...
-
哈利·波特魔法世界里的魔法咒语及其效果🪄
该数据集全面收集了来自《哈利·波特》世界的 77 种咒语,包括它们的名称和效果的详细描述。数据涵盖了各种各样的魔法咒语,从简单的咒语到强大的防御咒语和复杂的变形术。该数据集来自 HP-API,为粉丝、研究人员和数据爱好者提供了一种结构化的方式来探索和分析《哈利·波特》系列的魔法系统。 该数据集的主要特征包括: 77 个正典咒语全集...
-
不同的情感文本数据集 2025
该数据集包含代表各种情绪状态的列,具体来说: 愤怒 无聊 平静 蔑视 厌恶 兴奋 恐惧 沮丧 快乐 中性 自豪 悲伤 惊讶 每一行可能代表记录这些情绪的实例或观察结果,可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态,从负面情绪(例如,愤怒、厌恶、悲伤)到正面情绪(例如,快乐、兴奋、自豪),以及中性或平衡状态(例如,平静、中性)。
-
龙珠问答数据集
龙珠问答语料库是一个精选数据集,旨在训练和评估特定于龙珠世界的问答模型。它包含多个文本文件,每个文件都充满了结构化和非结构化文本数据,涵盖了龙珠系列的各个方面,包括人物传记、力量等级、故事情节、转变、战斗、技术和传说。 每个文本文件都经过精心组织,以确保全面涵盖不同的主题,例如: 角色信息:详细的个人资料、能力和关系。 故事情节和弧线:龙珠、龙珠...
-
DeepSeek 上的推文和反应:Twitter/X 上有关 DeepSeek 模型的推文和反应
该数据集包含有关 DeepSeek 及其发布的模型的推文和反应,以及其他密切相关的关键词,例如 NVIDIA、OPENAI、ANTHROPIC、META、LLAMA 等。
-
使用 peft 和 lora 进行 LLM 微调的合成数据
该数据集包含对话摘要、主题和对话,用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道,这是一种流行且轻量级的训练技术,可显着减少可训练参数的数量。 该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum
-
罗斯科学文章/Рус научные статьи
从 eLibrary.ru 网站下载了 2,478 篇俄语科学文章,这些文章被分为顶级 GRNTI(国家科学技术信息分类表)的 62 个标题。eLibrary.ru。网站上的期刊目录包含 71 个 GRNTI 类别,我选择了其中有足够数量的科学期刊和文章属于公共领域的类别。 标题位于说明的末尾。 下载了 pdf 文件,将其转换为 txt...
-
《老友记》电视节目抄录:《老友记》每一集的台词排序
创建此数据集的目的是构建一个分类器,确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。 内容 里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段,让其他人可以轻松入门。 数据来自 每集的原始记录最初都是从这里抓取的:https : //fangj.github.io/friends/。Jorge Nachtigall
-
包含“绿色氢”文章标题的数据集
该数据集包含从 CNBC 和 Google RSS 网站抓取的数据 - 其中包含“绿色氢”的文章标题。此外,还包含日期、文章所涉及的组织名称及其情感分数,可用于比较每篇文章。
-
英语至阿萨姆语平行数据集
此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集
-
用于 NLP 任务的高质量金融新闻数据集
此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段:...
-
用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集
该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...
-
GPT GCJ 数据集:检测 LLM 编写的 Java 代码
来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...
-
FSL 数据集
FSL 数据集,26 个字母,每个字母 450 张图片,总共 11700 张图片 菲律宾手语字母表的数据集,包含 26 个字母,每个字母有 450 张图片,共计 11700 张图片。该数据集由研究人员在网络摄像头前做出手势创建,然后对视频进行处理以裁剪手部区域,并将其调整为当前尺寸。



