数据集

库尔德语立场检测数据集

数据集概述

该数据集包含2024年3月至2025年2月从Rudaw网站采集的2174篇索拉尼库尔德语新闻文章，覆盖经济和政治领域，通过自动标注与人工验证结合的方式，为每篇文章标注目标主题（如“货币”“选举”）和立场标签（支持、反对、中立），标注信度高，附相关代码以确保可复现性。

文件详解

该数据集由多个文件和目录组成，具体说明如下： - 说明文档: - readme.md: 位于Kurdish_Stance_Dataset目录下，介绍数据集的采集、标注流程及结构 - 代码文件（位于code/目录下）: - stance_annotator.ipynb: 立场标注相关代码 - target_identifier.ipynb: 目标主题识别相关代码 - scraper.ipynb: 数据采集相关代码 - 数据文件（位于data/目录下）: - Target_Lexicon.xlsx: 目标主题词典，包含2456个领域特定术语 - Stance_Lexicon.xlsx: 立场词典，包含4243个动词和形容词 - Bochun_Stance_English_Sample.xlsx: 英文立场样本数据 - Bochun_Orginal_Data.xlsx: 原始数据 - Bochun_Target.xlsx: 目标主题数据 - Bochun_Stance_Kurdish.xlsx: 库尔德语立场数据

数据来源

Rudaw网站

适用场景

低资源语言自然语言处理研究: 用于库尔德语立场检测模型的训练与评估
新闻内容分析: 分析库尔德语新闻中对经济、政治主题的立场倾向
计算语言学研究: 探究混合标注方法在低资源语言中的应用效果
媒体研究: 研究特定新闻平台对经济、政治议题的报道立场分布

数据与资源

ckkxx8mdcg-5.zipZIP
12.80 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	12.8 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。