数据集 - 海数据

柬埔寨宪法问答数据集

2026年3月11日 30 190 97

柬埔寨宪法问答数据集_Cambodian_Constitution_Question_Answering_Dataset 数据来源：互联网公开数据标签：问答系统, 宪法, 柬埔寨, 自然语言处理, 文本生成, 法律, 知识检索, 机器学习数据概述：该数据集包含柬埔寨宪法相关的问答对，旨在为构建柬埔寨宪法领域的问答系统提供支持。主要特征如下：...

ZIP

自然语言处理强化学习问答数据集

2026年3月6日 30 20 15

自然语言处理强化学习问答数据集_Natural_Language_Processing_Reinforcement_Learning_Question_Answering_Dataset 数据来源：互联网公开数据标签：自然语言处理, 强化学习, 问答系统, 文本生成, 对抗训练, 语言模型, 数据集构建, 模型训练数据概述：...

ZIP

埃及新闻文章摘要生成数据集

2026年3月3日 30 112 61

埃及新闻文章摘要生成数据集_Egyptian_News_Article_Summarization_Dataset 数据来源：互联网公开数据标签：文本摘要, 新闻文章, 自然语言处理, 机器翻译, 深度学习, 文本生成, 语料库, 阿拉伯语数据概述：...

ZIP

文本预训练语料库小说数据集

2026年2月17日 30 102 41

文本预训练语料库小说数据集_Text_Pre_training_Corpus_Novel_Dataset 数据来源：互联网公开数据标签：文本预训练, 自然语言处理, 语料库, 文本生成, 机器学习, 情感分析, 文本摘要, 语言模型数据概述：该数据集包含来自文学作品的文本数据，用于文本预训练任务。主要特征如下：...

ZIP

北萨米语广播字幕语料库_2021_2024

2026年2月1日 30 61 15

数据集概述本数据集为北萨米语YLE Areena字幕语料库，包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子，涵盖完整句子、句子ID及来源元数据，可用于北萨米语语言研究与资源开发。文件详解文件名称：sami_subtitles.json 文件格式：JSON...

ZIP

OEDILF_Based_计算诗学用人类创作打油诗数据集_v3

2026年1月28日 30 34 12

数据集概述本数据集包含从The Omnificent English Dictionary In Limerick...

ZIP

generated_texts_Based_生物基因NLP微调模型评估数据

2026年1月21日 30 190 80

数据集概述本数据集包含用于模型评估的微调模型生成文本，核心围绕生物基因领域的NLP文本生成任务。数据集仅含1个JSON格式文件，无训练/测试、数据/标签或原始/处理数据划分，无目录层级结构，是生物基因NLP模型评估的专用文本资源。文件详解文件名称：generated_texts.json 文件格式：JSON...

ZIP

CER_UQAC_2023_1326_基于文本生成的用户故事质量提升实验数据

2026年1月20日 30 68 27

数据集概述本数据集包含受控实验CER-UQAC 2023-1326参与者撰写的所有用户故事，旨在支持基于文本生成技术提升用户故事质量的研究。数据集仅含一个文件，无目录层级或数据拆分。文件详解文件名称：Participants Results v2.xlsx 文件格式：XLSX...

ZIP

ArchiMob_Based_瑞士德语变体口语转录语料库_Release_1

2026年1月20日 30 166 161

数据集概述本数据集为ArchiMob语料库Release 1，包含瑞士境内使用的德语变体口语转录文本，是首个瑞士德语长文本电子资源，总规模达528381个词元，可用于形态句法特征空间分布研究及自然语言处理任务。文件详解文件名称：ArchiMob_Release1_160812.zip 文件格式：ZIP（压缩包）...

ZIP

M3NSCT5_Based_Stack_Overflow帖子多样化标题生成实验数据集

2026年1月18日 30 199 145

数据集概述本数据集是论文“Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer”的配套数据，包含训练、验证、测试三类文件，覆盖八种编程语言的Stack...

ZIP

FoodSky_FoodEarth_Based_食品领域大语言模型与基础语料数据集

2026年1月15日 30 37 15

数据集概述本数据集包含食品领域大语言模型FoodSky及配套基础语料数据集FoodEarth。FoodEarth从权威来源构建，支持FoodSky实现食品数据的细粒度感知与推理；FoodSky通过特定算法优化语义捕捉与文本生成能力，在厨师考试和营养师考试中表现优于通用大语言模型，可用于食品智能相关任务。文件详解 FoodSky-main.zip...

ZIP

Webis_ConcluGen_Based_2021结论生成语料库_Patch1_0_1

2026年1月13日 30 162 93

数据集概述本数据集为Webis-ConcluGen-2021结论生成语料库，包含约13万组论证文本与结论配对数据，分为base、topic、targets、aspects四种变体，每种变体含训练、验证、测试文件，还提供自动评估测试集与人工评估用测试集，便于定量与定性分析。文件详解文件名称：webis-...

ZIP

圣诞BMJ标题生成的人工智能观测研究数据集

2025年12月21日 30 69 0

数据集概述本数据集包含用于研究“幽灵在机器中还是打字机前的猴子——使用人工智能生成圣诞BMJ标题”的相关数据与分析脚本，为该观测研究提供完整的数据支撑。文件详解文件名称: 3_analysisScript.rmd 文件格式: .rmd 内容说明: R语言Markdown格式的分析脚本，用于处理和分析研究数据文件名称:...

ZIP

BabelCoder_代理代码翻译与规范对齐数据集

2025年12月21日 30 136 124

数据集概述该数据集围绕“代理代码翻译与规范对齐”主题构建，包含一个压缩文件，可能涉及代码翻译任务中代理机制与规范对齐方法的相关数据，未明确划分训练/测试、数据/标签或原始/处理数据。文件详解文件名称: dataset.zip 文件格式: ZIP压缩包（.zip）内容说明: 压缩包内具体文件结构及内容未提供预览，需解压后查看。适用场景...

ZIP

AKT_NUTQIDA_AUTENTIK_MATNLAR_YARATISHDA_SOHAGA_BO_LGAN_LEKSIK_BIRLIKLARDAN_FO...

2025年12月20日 30 64 47

数据集概述本数据集围绕在真实文本创作中使用专业领域词汇单元的可能性展开，核心内容为相关研究文档，以PDF格式呈现，为探究领域词汇在文本生成中的应用提供资料支持。文件详解文件名称: Ibragimova Muharram.pdf 文件格式: PDF (.pdf) 文件内容:...

ZIP

可用性相关缺陷的大语言模型数据集

2025年12月6日 30 114 91

数据集概述该数据集围绕大语言模型在可用性相关缺陷中的应用，包含真实数据、提示词、原始数据及可用性修复相关内容，为研究大语言模型处理可用性缺陷的表现提供数据支持。文件详解文件名称: Data.zip 文件格式: ZIP压缩包内容说明: 压缩包内包含四类核心数据：真实数据（Ground-truth...

ZIP

含参数单比特错误的OPUS_MT与T5模型生成文本数据集

2025年12月15日 30 57 16

数据集概述该数据集包含T5和OPUS-MT两种大语言模型在参数含单比特错误与无错误情况下的生成文本。T5基于CNN Daily Mail数据集完成摘要任务，OPUS-MT基于IWSLT2017数据集完成汉英翻译任务，覆盖FP32和FP16两种量化版本模型的输出对比。文件详解该数据集包含四个模型版本目录及对应文件，具体说明如下： - 目录结构： -...

ZIP

Text2KGBench本体驱动文本生成知识图谱基准数据集

2025年12月13日 30 154 24

数据集概述该数据集是用于评估语言模型在本体引导下从文本生成知识图谱能力的基准，包含Wikidata-TekGen（十个本体、一万三千四百七十四句）和DBpedia-WebNLG（十九个本体、四千八百六十句）两个子数据集，遵循本体约束提取文本事实。文件详解数据集以压缩包形式提供，内部结构及内容如下： - 压缩包文件:...

ZIP

提格利尼亚语语言建模数据集TLMD_v1_0_0

2025年12月13日 30 76 49

数据集概述该数据集是为提格利尼亚语语言建模构建的单语种数据集，是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理，包含训练集（百分之九十八）和验证集（百分之二），支持自然语言处理研究。文件详解文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包数据结构:...

ZIP

语义相关性句子对数据集2023

2025年12月9日 30 11 3

数据集概述该数据集包含五千五百个英文句子对，每个句子对依据语义相关程度被赋予零到一的评分，零代表最不相关，一代表最相关。数据通过最佳最差标度法（Best-Worst Scaling）收集，旨在支持句子语义相关性、句子表示方法及相关应用的研究。文件详解核心数据文件: sem_text_rel_ranked.csv:...

ZIP

找到751个数据集

注册成功！