-
西安市某智能酒店在线评论数据(2021年~2024年)
数据名称:西安市某智能酒店在线评论数据(2021年~2024年) 数据范围:2021年~2024年西安市某智能酒店在线评论数据 数据时间:2021年~2024年 数据说明:数据维度包含入住房型、入住年月、出行类型、用户点评数、评分、评论有用数、评论日、发布地区、评论图片、评论长度、评论文本等信息。 数据来源:互联网数据
-
一万家餐厅点评数据集
数据名称:一万家餐厅点评数据集 数据范围:截止2023年一万家餐厅点评 数据时间:截止 2023年 数据说明:数据维度包含包含 10000 行 8 列的餐厅评论数据集。 数据来源:互联网数据
-
上市公司-解析上市公司年报中的语气数据(2007-2022)
上市公司年报是公司向投资者、债权人和其他利益相关者公开披露年度财务状况、经营业绩和其他重要信息的法定文件。这些信息对于投资者评估公司的价值和未来前景具有重要意义。而文本语气数据则是指从年报文本中提取出来的表达语气、情感和态度等主观信息的非结构化数据。这些数据可以反映公司管理层对于公司经营状况、行业趋势和未来发展的态度和信心。...
-
垃圾短信垃圾邮件收集数据集
从 Grumbletext 网站手动提取了 425 条垃圾短信。这是一个英国论坛,手机用户在此公开声明垃圾短信,但大多数用户并未报告收到的垃圾短信。 NUS SMS Corpus (NSC) 的 3,375 条随机选择的 SMS 短信子集,该数据集包含约 10,000...
-
OCNLI中文自然语言训练数据集
OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库,紧密按照MNLI的程序收集,但具有增强的策略,旨在实现更具挑战性的推理对。我们想强调的是,我们在创建数据集时没有使用人机翻译,因此我们的中文文本是原创的,没有翻译。
-
SST (Stanford Sentiment Treebank)
斯坦福情感库是一个带有完全标记的解析树的语料库,可以全面分析情感在语言中的构成影响。该语料库基于 Pang 和 Lee (2005) 引入的数据集,由从电影评论中提取的 11,855 个单句组成。它使用斯坦福解析器进行解析,包括来自这些解析树的总共 215,154 个独特的短语,每个短语由 3...
-
-
高校调查问卷文本数据集
高校学子在填写志愿时对目标高校校园生活往往并不了解,此项目志在帮助各学子通过在校学长学姐的亲身体验经验提前了解校园生活的方方面面。该数据是经过大模型处理过的数据,可以直接用于训练AI模型或用于RAG的数据集
-
GeoQA (Geometric Question Answering)
GeoQA 是一个用于自动解决几何问题的数据集,包含 5,010 个几何问题和相应的注释程序,说明了给定问题的解决过程 与另一个公开可用的数据集 GeoS 相比,GeoQA 大 25 倍,其中程序注释可以提供实用的未来研究明确和可解释的数值推理的测试平台。
-
-
DRCD (Delta Reading Comprehension Dataset)
一个数据集,其中包含 2,221 个来自不同学科(历史、生物学、地理和哲学)的十二年级入学考试的问题,以及来自历史在线测验的 412 个附加问题。
-
SFT多轮中文对话文本数据集
SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献,每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。 数据组成...
-
综合性食谱语料库
完整的食谱语料库包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符,最小长度为10个字符。食谱由415,272位作者贡献。其中,最有生产力的作者上传5,394食谱。
-
-
ChemData700K
ChemData700K 是一个包含了九项化学核心任务,730K个高质量问答的大语言模型化学能力指令微调数据集.ChemData是大模型语料数据联盟成员单位上海人工智能实验室 AI for Science团队精心构建的大规模数据集,旨在为化学语言模型的微调提供支持,从而提高、释放其全部化学潜力。
-
-
用于 LLM 微调的土耳其农业数据集
该数据集旨在微调 T3 AI 土耳其语 LLM。它由 Barathan Aslan、Ömer Faruk Çelik 和 Batuhan Kalem 为 T3 AI Hackathon 创建。该数据集专注于土耳其农业。
-
梦境符号解释数据集
该数据集包含有关各种梦境符号解释的信息。每行都提供一个特定的梦境符号及其相应的解释。它主要用于理解梦境背后的象征意义,并可用于心理学、梦境分析甚至创意写作等领域。
-
冒犯性语言文本数据集(英文)
数据以CSV格式和pickled pandas数据框(Python 2.7)存储。 count = 编码每条推文的CrowdFlower用户数量(最小值为3,有时当CF判断推文不可靠时,会有更多用户编码一条推文)。 hate_speech = 判断推文为仇恨言论的CF用户数量。 offensive_language =...
-
[谦益斋外科医案(全)].高锦庭
《谦益斋外科医案》,医案著作。清·高秉钧撰。治案按人体部位及病种分二十部,九十七病种,分门别类汇辑。作者强调整体观念,认为外科疾病“病虽在外,而其本在内”。因此,每证详辨八纲,随证立法处方,并指出防止病情恶变及病后调理之法。案末附疡科日用丸散膏丹论略,阐述若干外用药的药理、效能,可供临床参考。



