数据集概述
该数据集包含2024年3月至2025年2月从Rudaw网站采集的2174篇索拉尼库尔德语新闻文章,覆盖经济和政治领域,通过自动标注与人工验证结合的方式,为每篇文章标注目标主题(如“货币”“选举”)和立场标签(支持、反对、中立),标注信度高,附相关代码以确保可复现性。
文件详解
该数据集由多个文件和目录组成,具体说明如下:
- 说明文档:
- readme.md: 位于Kurdish_Stance_Dataset目录下,介绍数据集的采集、标注流程及结构
- 代码文件(位于code/目录下):
- stance_annotator.ipynb: 立场标注相关代码
- target_identifier.ipynb: 目标主题识别相关代码
- scraper.ipynb: 数据采集相关代码
- 数据文件(位于data/目录下):
- Target_Lexicon.xlsx: 目标主题词典,包含2456个领域特定术语
- Stance_Lexicon.xlsx: 立场词典,包含4243个动词和形容词
- Bochun_Stance_English_Sample.xlsx: 英文立场样本数据
- Bochun_Orginal_Data.xlsx: 原始数据
- Bochun_Target.xlsx: 目标主题数据
- Bochun_Stance_Kurdish.xlsx: 库尔德语立场数据
数据来源
Rudaw网站
适用场景
- 低资源语言自然语言处理研究: 用于库尔德语立场检测模型的训练与评估
- 新闻内容分析: 分析库尔德语新闻中对经济、政治主题的立场倾向
- 计算语言学研究: 探究混合标注方法在低资源语言中的应用效果
- 媒体研究: 研究特定新闻平台对经济、政治议题的报道立场分布