社交媒体多语言攻击性语言识别数据集2020_英文

数据集概述

该数据集为SemEval-2020 Task 12(OffensEval 2020)的英文部分数据,包含基于OLID schema的三个子任务测试集及相关文件,用于社交媒体攻击性语言识别,支持多语言任务的英文场景分析。

文件详解

  • 说明文档:
  • README.md:Markdown格式,介绍数据集背景、任务结构及文件说明,包含任务官网链接
  • 子任务数据文件(压缩包):
  • task_a_distant.tsv.zip:ZIP格式,英文子任务A的相关数据文件
  • task_b_distant.tsv.zip:ZIP格式,英文子任务B的相关数据文件
  • task_c_distant.tsv.zip:ZIP格式,英文子任务C的相关数据文件
  • 测试集文件(压缩包):
  • semeval_test-20200717T190531Z-001.zip:ZIP格式,共享任务官方测试集
  • extended_test-20200717T190516Z-001.zip:ZIP格式,论文描述中使用的扩展测试集

适用场景

  • 自然语言处理研究:社交媒体文本中攻击性语言的识别与分类算法开发
  • 多语言任务对比:英文与其他语言在攻击性语言识别任务上的性能差异分析
  • 语义分析应用:基于OLID schema的分层攻击性语言标注体系验证
  • 共享任务复现:SemEval-2020 Task 12英文子任务的实验结果复现与模型优化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 232.76 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。