数据集

印地语文本宣传数据集2023_Prop_HiT

数据集概述

本数据集是针对印地语文本的宣传检测数据集，包含来自三十二家印地语新闻网站的七百九十篇文章，采用人工标注方式标记十八种宣传技术。数据按训练集（五百五十篇）和测试集（二百四十篇）划分，为印地语宣传内容识别研究提供结构化标注数据。

文件详解

该数据集包含以下文件： - 压缩包文件: - Prop-HiT Dataset.zip: ZIP格式压缩包，内部包含训练集（train/）和测试集（test/）两个子文件夹，每个子文件夹下按文章ID对应两类文件： - 文本文件: article[unique_id].txt，存储文章原始内容 - 标注文件: article[unique_id].labels.tsv，TSV格式，每行记录一个宣传技术标注，字段包括article_id（文章ID）、technique（宣传技术）、begin_offset（起始偏移量）、end_offset（结束偏移量） - 说明文档: - Instructions To Annotators.pdf: PDF格式文档，提供标注人员操作指南

数据来源

Deptii Chaudhari, Dr. Ambika Pawar

适用场景

自然语言处理研究: 用于训练和测试印地语文本的宣传技术自动识别模型
计算语言学分析: 分析印地语新闻文本中宣传手法的分布特征
媒体研究: 探究印地语新闻媒体中宣传内容的传播规律
多语言宣传检测: 作为低资源语言宣传数据集，支持跨语言宣传研究对比

数据与资源

12739710.zipZIP
2.08 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	2.08 MiB
最后更新	2025年12月21日
创建于	2025年12月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。