找到26个数据集

格式: zip 标签: 自然语言处理

过滤结果
  • 智能手机黄金时代用户评论数据集2011-2017

    2025年8月28日 30 40 33

    数据集概述 本数据集收录了9个主流手机品牌在电商平台上的用户评论数据,涵盖2011年至2017年期间的消费者真实购买体验和产品反馈。数据集包含联想、VIVO、摩托罗拉、OPPO、红米、诺基亚、松下、iPhone和Micromax等品牌的141,590条用户评论记录。 字段定义 用户信息 用户: 评论用户的显示名称,字符串类型 用户ID:...
    packageimg
  • 聊天记录数据集(2015-2022)

    2025年8月19日 60 104 33

    社交媒体或在线平台的聊天记录,包含文本消息、对话内容、情感标签等 适用于人工智能与自然语言处理课程,学生可以使用该数据集进行情感分析、对话生成、对话系统优化等任务。
    packageimg
  • 比特币政策对话访谈问答与议题结构数据集

    2025年7月31日 30 106 54

    数据简介: 本数据集系统整理了2024年与比特币相关的播客节目内容,共计1819条记录。数据聚焦于宏观经济、货币政策、技术演进、制度接受度与社会应用等方面,涵盖来自多个播客节目的嘉宾访谈、对话要点、关键词抽取、核心议题梳理与延伸性问题汇总。该数据集为比特币政策研究、传播趋势分析与公众认知建模提供结构化信息支持。 数据来源: 播客节目平台(如...
    packageimg
  • 企业邮件垃圾分类样本数据集

    2025年6月19日 30 53 16

    数据来源: 该数据集由美国能源公司 Enron 的内部通信记录构成,原始数据整理自 Enron Email Dataset,后经分类标注为“垃圾邮件”与“正常邮件”(Spam/Ham)两类,用于自然语言处理任务中的文本分类研究。 字段定义: Message ID:邮件编号,唯一标识每封邮件 Subject:邮件主题 Message:邮件正文内容...
    packageimg
  • 特朗普政治言论分析用推特数据集

    2025年5月25日 30 113 41

    数据简介: 该数据集收集了与唐纳德·特朗普(Donald Trump)相关的推文文本及其元信息,内容涵盖用户生成的转发、评论和直接提及。数据时间上集中于2015年前后美国大选时期,具有一定的舆情代表性,可用于情感分析、文本分类、信息传播研究、政治观点分析等多种任务。 数据源自 Twitter...
    packageimg
  • 亚马逊商品图像结构信息抽取图像中商品属性数据集

    2025年5月19日 30 112 89

    数据概述: 本数据集用于图像信息抽取任务,目标是训练一个机器学习模型,从商品图像中提取关键属性值(如重量、电压、体积、尺寸等)。该能力广泛应用于医疗、电商和内容审核等场景,尤其适用于缺乏详细文本描述的数字商品信息补全。模型需识别图像中的特定属性值,并输出标准格式的预测结果。 字段说明: 训练数据(train.csv)包含以下字段:...
    packageimg
  • NLp专用短信垃圾邮件分类数据集

    2025年5月13日 30 116 74

    数据概述: 本数据集是一个短信垃圾邮件收集数据集,包含超过10,000条SMS短信消息,并已被标记为“垃圾邮件”(spam)或“非垃圾邮件”(ham)。数据集中的每条短信以文本字符串的形式呈现。 数据包含以下字段: text:表示每条短信的内容。 target:指示每条短信是“垃圾邮件”还是“非垃圾邮件”。 数据用途概述:...
    packageimg
  • 烹饪平台用户评论与互动信息食谱评论与评分反馈数据集

    2025年4月13日 30 9 4

    数据来源 互联网公开数据 数据字段 Recipe_Name(食谱名称):用户评价所对应的食谱标题。 Recipe_Rank(食谱排名):食谱在平台前100名榜单中的排名情况。 Recipe_ID(食谱代码):每个食谱的唯一标识符。 User_ID(用户ID):用户的唯一身份标识。 User_Name(用户名):注册用户的显示名称。...
    packageimg
  • 安然电子邮件数据集

    2025年3月9日 50 85 5

    安然电子邮件数据集包含安然公司员工生成的约 500,000 封电子邮件。这是美国联邦能源管理委员会在调查安然公司倒闭时获得的。 这是 2015 年 5 月 7 日版本的数据集,发布于https://www.cs.cmu.edu/~./enron/
    packageimg
  • 电子商务分析:Swiggy、Zomato、Blinkit

    2025年3月9日 60 173 26

    📌 概述 该数据集提供了有关电子商务杂货配送服务的详细见解,重点关注 Blinkit、Swiggy Instamart 和 JioMart。它包括客户反馈、配送时间、服务评级以及影响配送绩效的各种因素。该数据集可用于分析客户满意度、识别服务趋势和优化配送物流。 📍 主要功能 📍 订单 ID – 每个订单的唯一标识符。 📍 平台 –...
    packageimg
  • 不同的情感文本数据集 2025

    2025年2月18日 30 138 108

    该数据集包含代表各种情绪状态的列,具体来说: 愤怒 无聊 平静 蔑视 厌恶 兴奋 恐惧 沮丧 快乐 中性 自豪 悲伤 惊讶 每一行可能代表记录这些情绪的实例或观察结果,可能基于个人反应、文本分析或生理数据。情绪涵盖了广泛的情感状态,从负面情绪(例如,愤怒、厌恶、悲伤)到正面情绪(例如,快乐、兴奋、自豪),以及中性或平衡状态(例如,平静、中性)。
    packageimg
  • 龙珠问答数据集

    2025年2月17日 200 49 29

    龙珠问答语料库是一个精选数据集,旨在训练和评估特定于龙珠世界的问答模型。它包含多个文本文件,每个文件都充满了结构化和非结构化文本数据,涵盖了龙珠系列的各个方面,包括人物传记、力量等级、故事情节、转变、战斗、技术和传说。 每个文本文件都经过精心组织,以确保全面涵盖不同的主题,例如: 角色信息:详细的个人资料、能力和关系。 故事情节和弧线:龙珠、龙珠...
    packageimg
  • 使用 peft 和 lora 进行 LLM 微调的合成数据

    2025年2月14日 200 111 26

    该数据集包含对话摘要、主题和对话,用于使用参数有效微调和大型语言模型的低秩自适应创建对 LLM 模型进行微调的管道,这是一种流行且轻量级的训练技术,可显着减少可训练参数的数量。 该数据集也可在 hugging face 中使用。https://huggingface.co/datasets/knkarthick/dialogsum
    packageimg
  • 罗斯科学文章/Рус научные статьи

    2025年2月14日 318 200 115

    从 eLibrary.ru 网站下载了 2,478 篇俄语科学文章,这些文章被分为顶级 GRNTI(国家科学技术信息分类表)的 62 个标题。eLibrary.ru。网站上的期刊目录包含 71 个 GRNTI 类别,我选择了其中有足够数量的科学期刊和文章属于公共领域的类别。 标题位于说明的末尾。 下载了 pdf 文件,将其转换为 txt...
    packageimg
  • 《老友记》电视节目抄录:《老友记》每一集的台词排序

    2025年2月14日 364 208 117

    创建此数据集的目的是构建一个分类器,确定《老友记》电视节目中的哪个朋友最有可能说出某句名言。 内容 里面的内容不仅仅是行和列。通过描述您如何获取数据以及它代表什么时间段,让其他人可以轻松入门。 数据来自 每集的原始记录最初都是从这里抓取的:https : //fangj.github.io/friends/。Jorge Nachtigall
    packageimg
  • 英语至阿萨姆语平行数据集

    2025年2月14日 287 195 73

    此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集
    packageimg
  • 用于 NLP 任务的高质量金融新闻数据集

    2025年2月13日 367 35 17

    此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段:...
    packageimg
  • 用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

    2025年2月13日 300 112 81

    该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...
    packageimg
  • GPT GCJ 数据集:检测 LLM 编写的 Java 代码

    2025年2月13日 300 35 7

    来自 GCJ 2020 的 76K+ Java 文件,其中 17K 由 GPT-4o 生成,用于 AI 检测 GPT Java GCJ 源代码数据集 该数据集由 2020 年 Google Code Jam 竞赛中 1,000 多位作者编写的共 76,089 个 Java 源代码文件和用于代码生成检测的 GPT-4o 重写代码组成。 随着 OpenAI...
    packageimg