库尔德语立场检测数据集

数据集概述

该数据集包含2024年3月至2025年2月从Rudaw网站采集的2174篇索拉尼库尔德语新闻文章,覆盖经济和政治领域,通过自动标注与人工验证结合的方式,为每篇文章标注目标主题(如“货币”“选举”)和立场标签(支持、反对、中立),标注信度高,附相关代码以确保可复现性。

文件详解

该数据集由多个文件和目录组成,具体说明如下: - 说明文档: - readme.md: 位于Kurdish_Stance_Dataset目录下,介绍数据集的采集、标注流程及结构 - 代码文件(位于code/目录下): - stance_annotator.ipynb: 立场标注相关代码 - target_identifier.ipynb: 目标主题识别相关代码 - scraper.ipynb: 数据采集相关代码 - 数据文件(位于data/目录下): - Target_Lexicon.xlsx: 目标主题词典,包含2456个领域特定术语 - Stance_Lexicon.xlsx: 立场词典,包含4243个动词和形容词 - Bochun_Stance_English_Sample.xlsx: 英文立场样本数据 - Bochun_Orginal_Data.xlsx: 原始数据 - Bochun_Target.xlsx: 目标主题数据 - Bochun_Stance_Kurdish.xlsx: 库尔德语立场数据

数据来源

Rudaw网站

适用场景

  • 低资源语言自然语言处理研究: 用于库尔德语立场检测模型的训练与评估
  • 新闻内容分析: 分析库尔德语新闻中对经济、政治主题的立场倾向
  • 计算语言学研究: 探究混合标注方法在低资源语言中的应用效果
  • 媒体研究: 研究特定新闻平台对经济、政治议题的报道立场分布
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.8 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。