巴西葡萄牙语冒犯性语言识别数据集

巴西葡萄牙语冒犯性语言识别数据集 数据来源:互联网公开数据
标签:冒犯性语言,巴西葡萄牙语,多任务注释,社交媒体,自然语言处理,文本分析,内容安全

数据概述:
本数据集是一个用于检测巴西葡萄牙语中冒犯性语言的多任务注释数据集,旨在支持冒犯性语言识别的研究与应用。当前版本(v1.0)包含7,943条评论,可扩展至13,538条评论,数据来源包括YouTube、Twitter等社交平台以及相关数据集。数据集中的每条评论都经过多维度注释,涵盖以下三个层次:
1. 冒犯性内容检测:识别是否存在冒犯性语言;
2. 冒犯目标识别:标注冒犯性语言针对的目标或对象;
3. 冒犯性片段识别:定位文本中具体冒犯性内容的位置。

数据用途概述:
该数据集适用于多种场景,包括但不限于:
1. 冒犯性语言检测模型的训练与优化:研究人员可利用此数据集开发和评估冒犯性语言检测算法,提升模型在巴西葡萄牙语环境下的性能;
2. 内容安全与审核:社交媒体平台可基于此数据集开发内容审核工具,识别和过滤冒犯性内容,维护网络环境的健康发展;
3. 语言与社会研究:学者可利用数据集分析巴西葡萄牙语中冒犯性语言的分布特征及其社会背景,为语言政策制定提供参考;
4. 跨语言对比研究:该数据集为跨语言冒犯性语言识别研究提供了基准,支持不同语言环境下冒犯性语言检测方法的对比与优化。

总之,本数据集为冒犯性语言识别研究提供了高质量的标注数据,具有重要的学术价值和实际应用意义。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.06 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。