NBC2_4_Based_历史新闻文章主题建模与分类标注数据

数据集概述

本数据集包含通过主题建模和朴素贝叶斯分类器(NBC2+4)对历史新闻文章进行的标注结果,按文章标题组织。内容涵盖瑞士新闻文章的主题标签及分布、第4轮NBC分类中欧洲反现代概念的前100个显著词,为新闻文本的主题分析提供结构化标注数据。

文件详解

  • 文件1:Bunout-newspaper article-annotations-w_TM_NBC-JOHD.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含瑞士新闻文章的主题标签及分布信息,按文章标题组织,记录每个标题对应的主题标签及其在文章集合中的分布情况。
  • 文件2:top 100 words-EA.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:列出第4轮NBC分类中,与欧洲反现代概念相关的100个最显著词汇。

适用场景

  • 新闻文本主题分析:利用主题标签及分布数据,研究瑞士新闻文章的主题结构与内容倾向。
  • NLP模型效果验证:基于朴素贝叶斯分类器的标注结果,评估文本分类模型在历史新闻数据上的性能。
  • 词汇显著性研究:分析欧洲反现代概念相关的显著词汇,探究特定主题的语言特征与语义表达。
  • 媒体内容趋势挖掘:通过主题分布数据,追踪历史新闻中特定主题的出现频率与演变趋势。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 56.81 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。