数据集 - 海数据

西安市某智能酒店在线评论数据（2021年~2024年）

2024年11月26日

数据名称：西安市某智能酒店在线评论数据（2021年~2024年）数据范围：2021年~2024年西安市某智能酒店在线评论数据数据时间：2021年~2024年数据说明：数据维度包含入住房型、入住年月、出行类型、用户点评数、评分、评论有用数、评论日、发布地区、评论图片、评论长度、评论文本等信息。数据来源：互联网数据

XLSX

一万家餐厅点评数据集

2024年11月25日

数据名称：一万家餐厅点评数据集数据范围：截止2023年一万家餐厅点评数据时间：截止 2023年数据说明：数据维度包含包含 10000 行 8 列的餐厅评论数据集。数据来源：互联网数据

CSV

上市公司-解析上市公司年报中的语气数据（2007-2022）

2024年10月20日

上市公司年报是公司向投资者、债权人和其他利益相关者公开披露年度财务状况、经营业绩和其他重要信息的法定文件。这些信息对于投资者评估公司的价值和未来前景具有重要意义。而文本语气数据则是指从年报文本中提取出来的表达语气、情感和态度等主观信息的非结构化数据。这些数据可以反映公司管理层对于公司经营状况、行业趋势和未来发展的态度和信心。...

DTA
TXT

垃圾短信垃圾邮件收集数据集

2024年11月9日

从 Grumbletext 网站手动提取了 425 条垃圾短信。这是一个英国论坛，手机用户在此公开声明垃圾短信，但大多数用户并未报告收到的垃圾短信。 NUS SMS Corpus (NSC) 的 3,375 条随机选择的 SMS 短信子集，该数据集包含约 10,000...

text/csv

OCNLI中文自然语言训练数据集

2024年11月10日

OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库，紧密按照MNLI的程序收集，但具有增强的策略，旨在实现更具挑战性的推理对。我们想强调的是，我们在创建数据集时没有使用人机翻译，因此我们的中文文本是原创的，没有翻译。

RAR

SST (Stanford Sentiment Treebank)

2024年11月10日

斯坦福情感库是一个带有完全标记的解析树的语料库，可以全面分析情感在语言中的构成影响。该语料库基于 Pang 和 Lee (2005) 引入的数据集，由从电影评论中提取的 11,855 个单句组成。它使用斯坦福解析器进行解析，包括来自这些解析树的总共 215,154 个独特的短语，每个短语由 3...

application/zip

党务问答文本数据集

2024年11月10日

党务问答数据，来自 https://wenda.12371.cn/liebiao.php 共有157,350条对话数据。

text/csv

高校调查问卷文本数据集

2024年11月10日

高校学子在填写志愿时对目标高校校园生活往往并不了解，此项目志在帮助各学子通过在校学长学姐的亲身体验经验提前了解校园生活的方方面面。该数据是经过大模型处理过的数据，可以直接用于训练AI模型或用于RAG的数据集

TXT

GeoQA (Geometric Question Answering)

2024年11月10日

GeoQA 是一个用于自动解决几何问题的数据集，包含 5,010 个几何问题和相应的注释程序，说明了给定问题的解决过程与另一个公开可用的数据集 GeoS 相比，GeoQA 大 25 倍，其中程序注释可以提供实用的未来研究明确和可解释的数值推理的测试平台。

application/zip

NLP中华古诗数据集

2024年11月10日

该数据集包含唐宋两朝近1.4万古诗人, 接近5.5万首唐诗和26万首宋诗数据可以用来分析学习。

ZIP

DRCD (Delta Reading Comprehension Dataset)

2024年11月10日

一个数据集，其中包含 2,221 个来自不同学科（历史、生物学、地理和哲学）的十二年级入学考试的问题，以及来自历史在线测验的 412 个附加问题。

SFT多轮中文对话文本数据集

2024年11月10日

SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献，每组对话由两位采集人围绕一个主题展开，上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力，以及端到端对话大模型。数据组成...

RAR

综合性食谱语料库

2024年11月10日

完整的食谱语料库包含1,520,327种中国食谱。其中，1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符，最小长度为10个字符。食谱由415,272位作者贡献。其中，最有生产力的作者上传5,394食谱。

ZIP

Douban Conversation Corpus豆瓣会话语料库

2024年11月10日

豆瓣会话语料库，这是第一个用于基于检索的聊天机器人的人工标记测试集。

text/plain

ChemData700K

2024年11月10日

ChemData700K 是一个包含了九项化学核心任务，730K个高质量问答的大语言模型化学能力指令微调数据集.ChemData是大模型语料数据联盟成员单位上海人工智能实验室 AI for Science团队精心构建的大规模数据集，旨在为化学语言模型的微调提供支持，从而提高、释放其全部化学潜力。

PARQUET

吴中医集全4集

2024年11月10日

...

pdf

用于 LLM 微调的土耳其农业数据集

2024年11月9日

该数据集旨在微调 T3 AI 土耳其语 LLM。它由 Barathan Aslan、Ömer Faruk Çelik 和 Batuhan Kalem 为 T3 AI Hackathon 创建。该数据集专注于土耳其农业。

CSV

梦境符号解释数据集

2024年11月9日

该数据集包含有关各种梦境符号解释的信息。每行都提供一个特定的梦境符号及其相应的解释。它主要用于理解梦境背后的象征意义，并可用于心理学、梦境分析甚至创意写作等领域。

text/csv

冒犯性语言文本数据集（英文）

2024年11月9日

数据以CSV格式和pickled pandas数据框（Python 2.7）存储。 count = 编码每条推文的CrowdFlower用户数量（最小值为3，有时当CF判断推文不可靠时，会有更多用户编码一条推文）。 hate_speech = 判断推文为仇恨言论的CF用户数量。 offensive_language =...