新闻点击诱饵数据集
数据来源:互联网公开数据
标签:新闻,点击诱饵,在线媒体,自然语言处理,机器学习,特征工程,社交媒体分析
数据概述:
本数据集包含从不同来源收集的新闻标题及其标签,用于训练和检测点击诱饵(clickbait)内容。数据集分为两个部分:train1.csv 和 train2.csv。train1.csv 收集自 Abhijnan Chakraborty, Bhargavi Paranjape, Sourya Kakarla 和 Niloy Ganguly 在 2016 IEEE/ACM 国际社会网络分析与挖掘会议(ASONAM)上发表的论文《Stop Clickbait: Detecting and Preventing Clickbaits in Online News Media》,包含两列数据:新闻标题和点击诱饵标签(1 表示点击诱饵,0 表示非点击诱饵),共有 32000 条记录,其中 50% 为点击诱饵,50% 为非点击诱饵。train2.csv 来自 Kaggle InClass 预测竞赛中的点击诱饵新闻检测数据集,包含新闻标题、新闻正文和标签。
数据用途概述:
该数据集适用于点击诱饵检测系统的训练和验证,帮助识别在线媒体中具有点击诱饵特征的新闻标题。研究者和开发者可以利用此数据集进行特征工程,开发和优化点击诱饵检测算法。此外,数据集也适用于自然语言处理和机器学习领域的研究,为相关模型提供训练样本。
举例:
数据集中包含如下记录:
- 标题:揭秘:你每天用的手机其实是个间谍!
标签:1(点击诱饵)
- 标题:印度科学家发现治疗阿尔茨海默病新方法
标签:0(非点击诱饵)