-
Webis标题党破解语料库2022
2025年12月9日 30 30 22
数据集概述 该数据集包含从Facebook、Reddit和Twitter爬取的五千条标题党帖子及其对应的破解内容,按训练、验证、测试集划分。破解内容分为短语型、段落型和非连续多文本型三类,曾用于SemEval-2023标题党破解任务。 文件详解 文件名称: webis-clickbait-22.zip 文件格式: ZIP压缩包 内部文件(按预设划分):...
-
TBGA基因疾病关联生物医学关系抽取数据集
2025年12月7日 30 10 4
数据集概述 该数据集为TBGA,是用于基因-疾病关联(GDA)抽取的大规模半自动标注数据集,包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件,每条记录对应从句子中提取的单个GDA,以JSON对象结构存储相关信息。 文件详解 数据集压缩包: TBGA.zip,ZIP格式,包含TBGA文件夹及内部所有文件 训练集文本文件:...



