-
议会公民身份法案讨论Voyant分析结果数据集
2025年12月20日 30 69 19
数据集概述 本数据集是通过在线工具Voyant对加拿大众议院和参议院关于《公民身份法案》的议会讨论文本进行分析后生成的结果文件,包含词云、趋势图等多种可视化图表,反映讨论文本的核心词汇及趋势特征。 文件详解 该数据集包含6个PNG格式的可视化文件,具体说明如下: -...
-
Gigatrue斯洛伐克语抽象摘要数据集
2025年12月19日 30 112 48
数据集概述 本数据集为合成Gigaword数据集的斯洛伐克语翻译版本,基于Gigatrue数据集通过SeamlessM4T-v2工具翻译生成,专注于抽象摘要任务,为斯洛伐克语文本摘要研究提供数据支持。 文件详解 文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf 文件格式: PDF...
-
过去十年语言学及相关领域发声研究元分析数据集
2025年12月15日 30 146 31
数据集概述 该数据集包含过去十年语言学及相关领域发声研究元分析的支撑材料,涵盖研究论文摘要生成的Python代码、分析结果的电子表格压缩包及元分析报告文档,为发声研究领域的文献分析提供数据与工具支持。 文件详解 代码文件: BatchSummarizePhonation.py: Python格式代码文件,用于生成元分析中纳入文章的摘要 压缩文件:...
-
含参数单比特错误的OPUS_MT与T5模型生成文本数据集
2025年12月15日 30 141 87
数据集概述 该数据集包含T5和OPUS-MT两种大语言模型在参数含单比特错误与无错误情况下的生成文本。T5基于CNN Daily Mail数据集完成摘要任务,OPUS-MT基于IWSLT2017数据集完成汉英翻译任务,覆盖FP32和FP16两种量化版本模型的输出对比。 文件详解 该数据集包含四个模型版本目录及对应文件,具体说明如下: - 目录结构: -...
-
CNN_YouTube标题_观看量与发布日期数据集
2025年12月13日 30 202 120
数据集概述 该数据集包含CNN在YouTube平台的视频标题、观看量、发布日期等信息,通过Python的SiteScraper模块(基于Selenium)抓取,每周更新,可用于标题文本摘要及观看量与标题的相关性分析。 文件详解 该数据集包括两个文件,具体说明如下: - 数据文件: - Cleaned_Cnn.csv: CSV格式文件,包含字段: -...
-
TFG系统评估大语言模型能力数据集
2025年12月7日 30 3 2
数据集概述 本数据集包含名为“通过文本摘要与扩展循环实现大语言模型能力评估系统”的学位论文(TFG)所用的结果、图表及评估文件,整体以压缩包形式存储,为研究大语言模型能力评估方法提供数据支持。 文件详解 文件名称: TFG-FILES.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
多语言合成出院小结数据集_基于心力衰竭临床病例
2025年12月6日 30 2 1
数据集概述 该数据集包含一千份心脏病学临床病例报告及其对应的多语言合成出院小结,覆盖英语、西班牙语和荷兰语三种语言。小结由GPT-4o-mini通过零样本提示生成并翻译,旨在为临床自然语言处理系统提供训练与评估数据支持。 文件详解 根目录文件: MultiSynDS.zip: 压缩文件,包含数据集所有内容 子目录结构:...
-
抽取式摘要数据集
2025年11月29日 30 191 106
数据集概述 该数据集包含一百篇英文文档,专为生成摘要任务创建,提供用于抽取式摘要研究的基础语料。数据集以单一压缩包形式存储,未划分训练测试、数据标签或原始处理子集。 文件详解 文件名称: ESSg_dataset.zip 文件格式: ZIP (.zip) 内容说明: 压缩包内包含一百篇英文文档,未提供具体字段映射信息,文件内部结构需解压后查看 适用场景...



