数据集 - 海数据

多语种越狱数据集

2026年2月15日 30 60 44

数据集概述本数据集为多语种越狱数据集，包含一个Excel文件，未进行训练/测试、数据/标签、原始/处理等数据拆分，未提供自述文件或内容预览，可用于多语种文本相关的研究与分析。文件详解文件名称：多语种越狱数据集.xlsx 文件格式：XLSX 字段映射介绍：未提供内容预览，具体字段信息暂不明确适用场景多语种文本数据挖掘:...

ZIP

HiT_Based_语言模型层级编码训练评估数据集_2024

2026年1月29日 30 163 64

数据集概述本数据集为论文“Language Models as Hierarchy Encoders”提出的Hierarchy Transformer编码器（HiT）提供训练与评估数据，包含多跳推理、混合跳预测及迁移学习场景数据，涉及snomed、schemaorg、foodon等多个本体，共8个压缩文件，支持直接通过Huggingface...

ZIP

QA_Feedback_Based_语言模型训练细粒度人类反馈奖励数据

2026年1月22日 30 129 98

数据集概述本数据集为论文“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training”所用的QA-...

ZIP

KDPII_Based_韩语对话文本PII去标识化数据集_Revised

2026年1月21日 30 81 51

数据集概述本数据集为KDPII数据集，是针对韩语对话文本的个人可识别信息（PII）去标识化任务构建的新型数据集。包含丰富的韩语对话文本，整合了大量韩语PII实例，旨在解决韩语隐私保护领域语言模型训练资源不足的问题，为韩语PII去标识化技术研发提供支撑。文件详解文件名称：PII_dataset_V3.json 文件格式：JSON...

ZIP

Bother_Definitions_and_use_术语定义与生成使用数据

2026年1月20日 30 135 57

数据集概述本数据集包含从词典和词库中整理的“Bother”术语定义，以及通过Chat GPT和LLaMa语言模型工具生成的包含“bother”“bothersome”“bothered”的正常使用句子，共两份文件。文件详解文件名称：Bother statements from Gen AI.xlsx 文件格式：XLSX...

ZIP

葡萄牙语文本中的性别偏见数据集

2025年12月22日 30 87 18

数据集概述该数据集包含用于研究葡萄牙语文本中性别偏见的相关数据，包括精选的葡萄牙语文学语料库、构建句子模板的词表以及已生成的句子模板文件，为基于掩码语言模型的性别偏见分析提供支持。文件详解语料库文件： corpus.zip：压缩文件，包含1804-1998年巴西和欧洲葡萄牙语的592部散文作品，共120万句、1760万词的精选文学语料库...

ZIP

蛋白质与编码序列整合语言模型数据集

2025年12月22日 30 119 56

数据集概述本数据集围绕蛋白质与编码序列整合以增强语言模型的研究主题构建，包含训练数据、微调模型、多模态数据集及特征嵌入等多类文件，为相关领域的模型训练与分析提供数据支持。文件详解根目录文件: source_data.zip: ZIP压缩包，包含项目所有子目录及文件 TE_MRL目录: MRL_dataset.zip:...

ZIP

突尼斯阿拉伯语拉丁转写语料库2017_2021

2025年12月21日 30 56 13

数据集概述该数据集是2017-2021年构建的突尼斯阿拉伯语（ISO 693-3: aeb）拉丁转写（Arabizi）文本资源，通过网络爬取Facebook公开页面消息，经人工筛选保留纯突尼斯阿拉伯语拉丁转写内容，无标注或调整，用于解决突尼斯阿拉伯语拉丁转写NLP数据库缺失问题。文件详解文本文件（.txt格式，共13个）：...

ZIP

乌兹别克语语言描述数据集

2025年12月14日 30 85 48

数据集概述本数据集包含一份关于乌兹别克语语言描述的PDF文档，文档围绕乌兹别克语的词语、短语及其语言学特征展开，为乌兹别克语语言研究提供基础资料。文件详解文件名称: Ибрагимова Муқаддас Абдуллаевна.pdf 文件格式: PDF (.pdf) 文件内容:...

ZIP

加泰罗尼亚政府网页爬取语料库2020

2025年12月13日 30 128 109

数据集概述该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库，含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档，是加泰罗尼亚语文本语料库的子语料库。文件详解文件名称: catalan_government_crawling.zip 文件格式: ZIP...

ZIP

开罗居民萨尔玛城市声音记录描述与评论的阿拉伯语及法语转录文本20120926

2025年12月10日 30 81 33

数据集概述该数据集包含2012年9月26日，埃及开罗居民萨尔玛对其使用双耳麦克风记录的城市日常旅程声音的描述与评论的转录文本，涵盖原始阿拉伯语版本及法语翻译版本，为研究城市声音感知提供质性数据支持。文件详解阿拉伯语转录文件: Arabic transcript of description and comments Salma...

ZIP

基于Key与Comrie_洲际词典系列_的CLDF数据集2023

2025年12月8日 30 160 81

数据集概述本数据集是基于Key与Comrie主编的《洲际词典系列》转换而来的CLDF格式数据集，收录了语言词典相关数据，为语言比较研究提供结构化数据支持。文件详解文件名称：intercontinental-dictionary-series/ids-v4.3.zip 文件格式：.zip（压缩包）...

ZIP

塞尔维亚小说语料库2021年4月版

2025年12月4日 30 158 104

数据集概述该数据集是2021年4月发布的塞尔维亚小说语料库（ELTeC-srp），包含90部以一级编码标注的小说文本，属于欧洲文学文本集合（ELTeC）的一部分，由COST Action项目推动构建。文件详解 README.md（Markdown格式）：包含语料库版本信息、发布说明、DOI引用链接及项目背景介绍，帮助用户理解数据集的来源与使用规范。...

ZIP

马来语大规模文本数据集

2025年6月1日 30 149 49

马来语大规模文本数据集数据来源：互联网公开数据标签：马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗数据概述：本数据集包含超过600万行独特的马来语文本，数据来源于多个公开数据集并经过清洗处理，确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源，适用于多种自然语言处理任务。...

ZIP

合成南非语故事数据集

2025年6月1日 30 109 63

合成南非语故事数据集数据来源：互联网公开数据标签：合成数据,南非语,儿童故事,道德价值,自然语言处理,文本生成,语言模型训练数据概述：...

ZIP

小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集

2025年5月11日 30 84 29

小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集数据来源：互联网公开数据标签：自然语言处理, 文本生成, 模型训练, GPT-4, GPT-3.5, 语言模型, 文本增强, OpenOrca, 子集数据概述：本数据集是原始OpenOrca数据集的一个子集，OpenOrca数据集是一个由增强的FLAN...

ZIP

大型语言模型训练提示数据集LLMPromptTrainDataDataset-kuohsintu

2025年5月28日 30 67 48

大型语言模型训练提示数据集LLMPromptTrainDataDataset-kuohsintu 数据来源：互联网公开数据标签：大型语言模型，数据集，自然语言处理，机器学习，文本生成，对话系统，人工智能，语言技术数据概述：该数据集包含用于训练大型语言模型的提示数据，记录了多种类型的对话和文本生成任务的示例。主要特征如下：...

ZIP

大型语言模型系统LMSYS对话数据集-cosheimil

2025年5月28日 30 139 85

大型语言模型系统LMSYS对话数据集-cosheimil 数据来源：互联网公开数据标签：大型语言模型，对话数据，自然语言处理，机器学习，数据集，文本生成，语言模型训练，人工智能数据概述：该数据集由 LMSYS 团队收集整理，包含了大量人机对话和模型生成的文本数据，旨在促进大型语言模型（LLM）的研究和发展。主要特征如下：...

ZIP

印度自然语言处理资源数据集IndicNLPResourcesDataset-arynamn

2025年5月12日 30 194 122

印度自然语言处理资源数据集IndicNLPResourcesDataset-arynamn 数据来源：互联网公开数据标签：自然语言处理，印度语言，文本分析，数据集，机器学习，语言学，文化研究，多语言处理数据概述：该数据集包含来自印度多个语言的文本资源，适用于自然语言处理和机器学习任务。主要特征如下：...

ZIP

阿拉伯语文本完形填空数据集ArabicTextClozeTestDataset-omarelkholy74

2025年5月16日 30 169 11

阿拉伯语文本完形填空数据集ArabicTextClozeTestDataset-omarelkholy74 数据来源：互联网公开数据标签：阿拉伯语, 文本完形填空, 自然语言处理, 机器阅读理解, 语言模型, 文本生成, 数据集, 填空题数据概述：该数据集包含来自互联网公开数据的阿拉伯语文本，记录了用于文本完形填空任务的句子对。主要特征如下：...

ZIP

找到49个数据集

注册成功！