数据集 - 海数据

智能手机黄金时代用户评论数据集2011-2017

2025年8月28日 30 40 33

数据集概述本数据集收录了9个主流手机品牌在电商平台上的用户评论数据，涵盖2011年至2017年期间的消费者真实购买体验和产品反馈。数据集包含联想、VIVO、摩托罗拉、OPPO、红米、诺基亚、松下、iPhone和Micromax等品牌的141,590条用户评论记录。字段定义用户信息用户: 评论用户的显示名称，字符串类型用户ID:...

zip

聊天记录数据集（2015-2022）

2025年8月19日 60 104 33

社交媒体或在线平台的聊天记录，包含文本消息、对话内容、情感标签等适用于人工智能与自然语言处理课程，学生可以使用该数据集进行情感分析、对话生成、对话系统优化等任务。

zip
ZIP

比特币政策对话访谈问答与议题结构数据集

2025年7月31日 30 106 54

数据简介：本数据集系统整理了2024年与比特币相关的播客节目内容，共计1819条记录。数据聚焦于宏观经济、货币政策、技术演进、制度接受度与社会应用等方面，涵盖来自多个播客节目的嘉宾访谈、对话要点、关键词抽取、核心议题梳理与延伸性问题汇总。该数据集为比特币政策研究、传播趋势分析与公众认知建模提供结构化信息支持。数据来源：播客节目平台（如...

zip

企业邮件垃圾分类样本数据集

2025年6月19日 30 53 16

数据来源：该数据集由美国能源公司 Enron 的内部通信记录构成，原始数据整理自 Enron Email Dataset，后经分类标注为“垃圾邮件”与“正常邮件”（Spam/Ham）两类，用于自然语言处理任务中的文本分类研究。字段定义： Message ID：邮件编号，唯一标识每封邮件 Subject：邮件主题 Message：邮件正文内容...

zip

特朗普政治言论分析用推特数据集

2025年5月25日 30 113 41

数据简介：该数据集收集了与唐纳德·特朗普（Donald Trump）相关的推文文本及其元信息，内容涵盖用户生成的转发、评论和直接提及。数据时间上集中于2015年前后美国大选时期，具有一定的舆情代表性，可用于情感分析、文本分类、信息传播研究、政治观点分析等多种任务。数据源自 Twitter...

zip

亚马逊商品图像结构信息抽取图像中商品属性数据集

2025年5月19日 30 112 89

数据概述：本数据集用于图像信息抽取任务，目标是训练一个机器学习模型，从商品图像中提取关键属性值（如重量、电压、体积、尺寸等）。该能力广泛应用于医疗、电商和内容审核等场景，尤其适用于缺乏详细文本描述的数字商品信息补全。模型需识别图像中的特定属性值，并输出标准格式的预测结果。字段说明：训练数据（train.csv）包含以下字段：...

zip

NLp专用短信垃圾邮件分类数据集

2025年5月13日 30 116 74

数据概述：本数据集是一个短信垃圾邮件收集数据集，包含超过10,000条SMS短信消息，并已被标记为“垃圾邮件”（spam）或“非垃圾邮件”（ham）。数据集中的每条短信以文本字符串的形式呈现。数据包含以下字段： text：表示每条短信的内容。 target：指示每条短信是“垃圾邮件”还是“非垃圾邮件”。数据用途概述：...

zip

烹饪平台用户评论与互动信息食谱评论与评分反馈数据集

2025年4月13日 30 9 4

数据来源互联网公开数据数据字段 Recipe_Name（食谱名称）：用户评价所对应的食谱标题。 Recipe_Rank（食谱排名）：食谱在平台前100名榜单中的排名情况。 Recipe_ID（食谱代码）：每个食谱的唯一标识符。 User_ID（用户ID）：用户的唯一身份标识。 User_Name（用户名）：注册用户的显示名称。...

zip

安然电子邮件数据集

2025年3月9日 50 85 5

安然电子邮件数据集包含安然公司员工生成的约 500,000 封电子邮件。这是美国联邦能源管理委员会在调查安然公司倒闭时获得的。这是 2015 年 5 月 7 日版本的数据集，发布于https://www.cs.cmu.edu/~./enron/

zip

电子商务分析：Swiggy、Zomato、Blinkit

2025年3月9日 60 173 26

📌 概述该数据集提供了有关电子商务杂货配送服务的详细见解，重点关注 Blinkit、Swiggy Instamart 和 JioMart。它包括客户反馈、配送时间、服务评级以及影响配送绩效的各种因素。该数据集可用于分析客户满意度、识别服务趋势和优化配送物流。 📍 主要功能 📍 订单 ID – 每个订单的唯一标识符。 📍 平台 –...

zip

微博热搜2020-2021

2025年2月27日 100 125 117

...

zip

不同的情感文本数据集 2025

2025年2月18日 30 138 108

该数据集包含代表各种情绪状态的列，具体来说：愤怒无聊平静蔑视厌恶兴奋恐惧沮丧快乐中性自豪悲伤惊讶每一行可能代表记录这些情绪的实例或观察结果，可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态，从负面情绪（例如，愤怒、厌恶、悲伤）到正面情绪（例如，快乐、兴奋、自豪），以及中性或平衡状态（例如，平静、中性）。

zip

龙珠问答数据集

2025年2月17日 200 49 29

龙珠问答语料库是一个精选数据集，旨在训练和评估特定于龙珠世界的问答模型。它包含多个文本文件，每个文件都充满了结构化和非结构化文本数据，涵盖了龙珠系列的各个方面，包括人物传记、力量等级、故事情节、转变、战斗、技术和传说。每个文本文件都经过精心组织，以确保全面涵盖不同的主题，例如：角色信息：详细的个人资料、能力和关系。故事情节和弧线：龙珠、龙珠...

zip

使用 peft 和 lora 进行 LLM 微调的合成数据

2025年2月14日 200 111 26

该数据集包含对话摘要、主题和对话，用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道，这是一种流行且轻量级的训练技术，可显着减少可训练参数的数量。该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum

zip

罗斯科学文章/Рус научные статьи

2025年2月14日 318 200 115

从 eLibrary.ru 网站下载了 2,478 篇俄语科学文章，这些文章被分为顶级 GRNTI（国家科学技术信息分类表）的 62 个标题。eLibrary.ru。网站上的期刊目录包含 71 个 GRNTI 类别，我选择了其中有足够数量的科学期刊和文章属于公共领域的类别。标题位于说明的末尾。下载了 pdf 文件，将其转换为 txt...

rar
zip

《老友记》电视节目抄录：《老友记》每一集的台词排序

2025年2月14日 364 208 117

创建此数据集的目的是构建一个分类器，确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。内容里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段，让其他人可以轻松入门。数据来自每集的原始记录最初都是从这里抓取的：https : //fangj.github.io/friends/。Jorge Nachtigall

zip

英语至阿萨姆语平行数据集

2025年2月14日 287 195 73

此文件中有数十万个英语到阿萨姆语的平行数据集。注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集

zip

用于 NLP 任务的高质量金融新闻数据集

2025年2月13日 367 35 17

此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确，包括网站及其嵌入 PDF 的内容。数据集特征日期：公告日期。主题：财经新闻的主题。内容：公告的全部内容，包括网站文本和 PDF。附加处理字段我们应用先进的 Mixtral 7X8 模型来生成以下附加字段：...

md
zip

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

2025年2月13日 300 112 81

该数据集经过精心设计，旨在微调 Gemma 2 语言模型，以生成印地语教育内容，专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建，由三个结构化组件组成，可实现有效的语言模型训练。数据集组件 1. 图书数据包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...

zip

GPT GCJ 数据集：检测 LLM 编写的 Java 代码

2025年2月13日 300 35 7

来自 GCJ 2020 的 76K+ Java 文件，其中 17K 由 GPT-4o 生成，用于 AI 检测 GPT Java GCJ 源代码数据集该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。随着 OpenAI...

zip
md

找到26个数据集

注册成功！