印尼新闻点击诱饵数据集

印尼新闻点击诱饵数据集

数据来源:互联网公开数据

标签:新闻分析,点击诱饵,印尼语,NLP,文本分类,新闻标题,数据标注

数据概述: 本数据集由15,000条印尼语新闻标题组成,每条标题被标注为“点击诱饵”或“非点击诱饵”。数据集从12家印尼在线新闻网站中提取,包含46,119条原始文章数据。标注工作由3名标注员完成,基于新闻标题进行判断,多数意见作为真实标签。在标注样本中,6,290条被标记为点击诱饵,8,710条被标记为非点击诱饵。数据集分为“raw”和“annotated”两个文件夹,分别包含原始数据和标注数据,文件格式包括.csv和.xlsx。

数据用途概述: 该数据集适用于新闻分析中的点击诱饵检测任务,尤其在印尼语NLP领域具有重要价值。研究人员可利用此数据集进行文本分类模型的训练和测试,探索印尼语新闻标题的特征和模式。企业可基于数据优化新闻传播策略,提升用户点击率。此外,数据集还可用于教育和培训,帮助学习者掌握文本分类和数据标注技术。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 143.75 MiB
最后更新 2025年4月26日
创建于 2025年4月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。