AOSSIE有毒上下文点击诱饵分类模型训练数据集-ad6398

AOSSIE有毒上下文点击诱饵分类模型训练数据集-ad6398 数据来源:互联网公开数据 标签:AOSSIE,点击诱饵,分类模型,训练数据,文本数据,新闻网站,数据集

数据概述: 本数据集用于AOSSIE组织在GSoC'19期间训练点击诱饵分类模型。数据集包含来自多个来源的原始数据,包括Click Bait挑战的数据集、从Buzzfeed、ClickHole、Doses等点击诱饵新闻网站以及纽约时报等非点击诱饵新闻网站抓取的数据。通过这些数据,我们构建了一个主CSV文件,其中所有点击诱饵数据被标记为1。

数据用途概述: 该数据集适用于点击诱饵分类模型的训练和评估,帮助识别和过滤网络上的点击诱饵内容。研究人员和开发者可以利用此数据集进行模型训练、验证和改进,提升点击诱饵检测的准确性。此外,数据集也有助于教育和培训,帮助学习者理解点击诱饵的特点和检测方法。

数据集包含的字段包括: - 文本内容:新闻标题或摘要 - 标签:1表示点击诱饵,0表示非点击诱饵

该数据集由我和GSoC同事Utsav Shukla共同编译,虽然我们尽力确保数据的准确性,但不提供任何保证。原始数据文件存储在Raw.zip文件中。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 20:16 (UTC)
创建于 五月 31, 2025, 20:16 (UTC)