印度假新闻检测与立场识别数据集2017

印度假新闻检测与立场识别数据集2017 数据来源:互联网公开数据 标签:假新闻,立场检测,机器学习,新闻分析,数据可视化,情感分析,文本处理 数据概述: 本数据集源自2017年假新闻挑战赛,旨在促进机器学习系统的开发,以检测新闻标题与文章正文之间的立场关系(即一致、不一致、讨论或无关)。数据集包含了新闻标题与文章正文的配对及其对应的立场标签,分为训练集和验证集。其中训练集包括文章正文文本及其唯一标识符,以及新闻标题与对应正文之间的立场标签。 数据用途概述: 该数据集适用于假新闻检测、新闻立场识别、情感分析和文本处理等多种场景。研究人员可利用此数据集训练机器学习模型以提高新闻立场识别的准确性;媒体工作者和公众可借助模型识别潜在的假新闻;数据集也适合用于教育培训,帮助学习者掌握文本处理和情感分析的相关技术。 举例: 在训练集中,每条数据记录包括新闻标题(Headline)、文章正文的唯一标识符(Body ID)及其对应的立场标签(Stance)。其中立场标签分为四类:unrelated(无关)、discuss(讨论)、agree(一致)、disagree(不一致)。例如,有一条记录的新闻标题为“印度经济增长放缓”,对应的文章正文标识符为1001,其立场标签为“disagree”,表示文章正文持不同意见,认为印度经济增长并未放缓。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.04 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。