印地语文本宣传数据集2023_Prop_HiT

数据集概述

本数据集是针对印地语文本的宣传检测数据集,包含来自三十二家印地语新闻网站的七百九十篇文章,采用人工标注方式标记十八种宣传技术。数据按训练集(五百五十篇)和测试集(二百四十篇)划分,为印地语宣传内容识别研究提供结构化标注数据。

文件详解

该数据集包含以下文件: - 压缩包文件: - Prop-HiT Dataset.zip: ZIP格式压缩包,内部包含训练集(train/)和测试集(test/)两个子文件夹,每个子文件夹下按文章ID对应两类文件: - 文本文件: article[unique_id].txt,存储文章原始内容 - 标注文件: article[unique_id].labels.tsv,TSV格式,每行记录一个宣传技术标注,字段包括article_id(文章ID)、technique(宣传技术)、begin_offset(起始偏移量)、end_offset(结束偏移量) - 说明文档: - Instructions To Annotators.pdf: PDF格式文档,提供标注人员操作指南

数据来源

Deptii Chaudhari, Dr. Ambika Pawar

适用场景

  • 自然语言处理研究: 用于训练和测试印地语文本的宣传技术自动识别模型
  • 计算语言学分析: 分析印地语新闻文本中宣传手法的分布特征
  • 媒体研究: 探究印地语新闻媒体中宣传内容的传播规律
  • 多语言宣传检测: 作为低资源语言宣传数据集,支持跨语言宣传研究对比
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.08 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。