数据集 - 海数据

安然电子邮件数据集

2025年3月9日

安然电子邮件数据集包含安然公司员工生成的约 500,000 封电子邮件。这是美国联邦能源管理委员会在调查安然公司倒闭时获得的。这是 2015 年 5 月 7 日版本的数据集，发布于https://www.cs.cmu.edu/~./enron/

zip

电子商务分析：Swiggy、Zomato、Blinkit

2025年3月9日

📌 概述该数据集提供了有关电子商务杂货配送服务的详细见解，重点关注 Blinkit、Swiggy Instamart 和 JioMart。它包括客户反馈、配送时间、服务评级以及影响配送绩效的各种因素。该数据集可用于分析客户满意度、识别服务趋势和优化配送物流。 📍 主要功能 📍 订单 ID – 每个订单的唯一标识符。 📍 平台 –...

zip

伊斯兰教词汇列表

2025年3月5日

以下列出由伊斯兰教及阿拉伯传统习俗引伸出来，并用阿拉伯语表达的知名词汇。主要目的是要甄别不同的拼写方式、列出已经不再使用的拼写、为这些词汇给出简短的定义、令人可以简便地找到及了解到具体的词汇及在单一页面上为伊斯兰教的独特词汇提供指引。...

pdf
xlsx

微博热搜2020-2021

2025年2月27日

...

zip

AI模型训练数据集规模与计算需求分析

2025年2月24日

标题：AI模型训练数据集规模与计算需求分析数据内容：...

新加坡火车站名称统计

2025年2月20日

标题：揭开新加坡火车站名称的神秘面纱数据内容：数据集包含新加坡火车站的中文名称，对应多个捷运站及专线简体中文名称。列出了车站代码、各站的中文名称（包括台湾繁体和大陆简体）、所在的捷运专线及对应的线路名称。此数据集中的数据旨在详细统计并对比不同火车站在不同版本中文中的译名区别。数据来源：互联网公开数据...

csv

ML in healthcare patent 医疗保健专利数据集

2025年2月18日

机器学习和医疗保健专利数据集是与机器学习和医疗保健创新交叉相关的专利记录的综合集合。该数据集是使用搜索查询「机器学习和医疗保健」从 Google Patents 中整理出来的，其中包括医学成像、诊断工具、 AI 驱动的治疗建议等各个领域授予的专利。该数据集旨在利用自然语言处理 (NLP) 、技术分析和 AI...

哈利·波特魔法世界里的魔法咒语及其效果🪄

2025年2月18日

该数据集全面收集了来自《哈利·波特》世界的 77 种咒语，包括它们的名称和效果的详细描述。数据涵盖了各种各样的魔法咒语，从简单的咒语到强大的防御咒语和复杂的变形术。该数据集来自 HP-API，为粉丝、研究人员和数据爱好者提供了一种结构化的方式来探索和分析《哈利·波特》系列的魔法系统。该数据集的主要特征包括： 77 个正典咒语全集...

csv

不同的情感文本数据集 2025

2025年2月18日

该数据集包含代表各种情绪状态的列，具体来说：愤怒无聊平静蔑视厌恶兴奋恐惧沮丧快乐中性自豪悲伤惊讶每一行可能代表记录这些情绪的实例或观察结果，可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态，从负面情绪（例如，愤怒、厌恶、悲伤）到正面情绪（例如，快乐、兴奋、自豪），以及中性或平衡状态（例如，平静、中性）。

zip

龙珠问答数据集

2025年2月17日

龙珠问答语料库是一个精选数据集，旨在训练和评估特定于龙珠世界的问答模型。它包含多个文本文件，每个文件都充满了结构化和非结构化文本数据，涵盖了龙珠系列的各个方面，包括人物传记、力量等级、故事情节、转变、战斗、技术和传说。每个文本文件都经过精心组织，以确保全面涵盖不同的主题，例如：角色信息：详细的个人资料、能力和关系。故事情节和弧线：龙珠、龙珠...

zip

DeepSeek 上的推文和反应：Twitter/X 上有关 DeepSeek 模型的推文和反应

2025年2月17日

该数据集包含有关 DeepSeek 及其发布的模型的推文和反应，以及其他密切相关的关键词，例如 NVIDIA、OPENAI、ANTHROPIC、META、LLAMA 等。

csv

使用 peft 和 lora 进行 LLM 微调的合成数据

2025年2月14日

该数据集包含对话摘要、主题和对话，用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道，这是一种流行且轻量级的训练技术，可显着减少可训练参数的数量。该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum

zip

罗斯科学文章/Рус научные статьи

2025年2月14日

从 eLibrary.ru 网站下载了 2,478 篇俄语科学文章，这些文章被分为顶级 GRNTI（国家科学技术信息分类表）的 62 个标题。eLibrary.ru。网站上的期刊目录包含 71 个 GRNTI 类别，我选择了其中有足够数量的科学期刊和文章属于公共领域的类别。标题位于说明的末尾。下载了 pdf 文件，将其转换为 txt...

rar
zip

《老友记》电视节目抄录：《老友记》每一集的台词排序

2025年2月14日

创建此数据集的目的是构建一个分类器，确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。内容里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段，让其他人可以轻松入门。数据来自每集的原始记录最初都是从这里抓取的：https : //fangj.github.io/friends/。Jorge Nachtigall

zip

包含“绿色氢”文章标题的数据集

2025年2月14日

该数据集包含从 CNBC 和 Google RSS 网站抓取的数据 - 其中包含“绿色氢”的文章标题。此外，还包含日期、文章所涉及的组织名称及其情感分数，可用于比较每篇文章。

csv

英语至阿萨姆语平行数据集

2025年2月14日

此文件中有数十万个英语到阿萨姆语的平行数据集。注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集

zip

用于 NLP 任务的高质量金融新闻数据集

2025年2月13日

此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确，包括网站及其嵌入 PDF 的内容。数据集特征日期：公告日期。主题：财经新闻的主题。内容：公告的全部内容，包括网站文本和 PDF。附加处理字段我们应用先进的 Mixtral 7X8 模型来生成以下附加字段：...

md
zip

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

2025年2月13日

该数据集经过精心设计，旨在微调 Gemma 2 语言模型，以生成印地语教育内容，专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建，由三个结构化组件组成，可实现有效的语言模型训练。数据集组件 1. 图书数据包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...

zip

GPT GCJ 数据集：检测 LLM 编写的 Java 代码

2025年2月13日

来自 GCJ 2020 的 76K+ Java 文件，其中 17K 由 GPT-4o 生成，用于 AI 检测 GPT Java GCJ 源代码数据集该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。随着 OpenAI...