虚假新闻检测文本分类数据集-2023-pnkjgpt

虚假新闻检测文本分类数据集-2023-pnkjgpt 数据来源:互联网公开数据 标签:虚假新闻,文本分类,NLP,数据竞赛,数据集,训练集,测试集,机器学习 数据概述: 本数据集来源于Dockship.io举办的竞赛,包含两个文件:训练集和测试集。训练集包含标记的新闻样本,可用于分类任务和模型评估;测试集不包含标签,用于预测新闻的真实性。训练集中有2万个样本,数据整体干净且平衡,仅有一行数据有偏移。数据集中存在重复项,但不影响整体平衡性。

数据用途概述: 该数据集适用于自然语言处理(NLP)任务,尤其是文本分类。可用于训练和评估虚假新闻检测模型。研究人员可以通过此数据集进行模型训练、验证和优化。此外,还可用于教学和学术研究,帮助学习者理解虚假新闻识别的基本方法和技术。

举例: 该数据集包含标记的训练样本和未标记的测试样本。训练样本可以用于训练各种分类模型,如逻辑回归、支持向量机或深度学习模型等。测试样本则用于模型预测和验证。提供的Jupyter Notebook探索了训练集的基本特征,并应用了一些经典模型,读者可以参考这些内容进行学习和研究。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 09:54 (UTC)
创建于 四月 22, 2025, 09:52 (UTC)