ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集

数据集概述

本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA,通过大语言模型自动化框架构建,包含181,976条标注为支持、反驳或信息不足的主张-证据对,可用于阿拉伯语自动事实核查模型训练与评估。

文件详解

  • 文件名称:ARAFA.json
  • 文件格式:JSON
  • 字段映射介绍:包含主张文本、对应的证据文本及事实核查标签(supported/refuted/not enough information),具体字段需参考文件内容,未提供详细预览。

数据来源

论文“ARAFA: An LLM Generated Arabic Fact Checking Dataset”

适用场景

  • 阿拉伯语自动事实核查模型开发: 用于训练和评估阿拉伯语自然语言处理模型的事实核查能力。
  • 低资源语言事实核查研究: 作为阿拉伯语领域首个大规模事实核查数据集,支持低资源语言事实核查方法探索。
  • 大语言模型应用验证: 验证大语言模型在自动生成标注数据集框架中的有效性与可扩展性。
  • 自然语言处理模型性能测试: 为阿拉伯语事实核查任务提供标准化评估基准。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 180.02 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。