找到3个数据集

标签: 清洗后文本

过滤结果
  • NLP_评分算法评估中期结果_20230513

    2026年2月9日 30 158 139

    数据集概述 本数据集为“基于简单评分的自然语言处理(NLP)算法评估”实验的中间结果,包含2个文件,涵盖预处理后的文本数据及对应的元数据,用于记录算法实验过程中的核心信息与处理后的数据内容。 文件详解 元数据文件: 文件名称:20230513_merged_preprocessed.metadata.xml 文件格式:XML...
    packageimg
  • 气候变化讨论页情感与毒性评分数据集_基于GraWiTas视角_VADER模型及维基百科数据

    2026年1月12日 30 109 100

    数据集概述 本数据集来自RWTH Aachen大学计算社会系统硕士项目,包含维基百科“气候变化”讨论页的原始数据及处理后的情感、毒性评分数据。原始数据通过GraWiTas工具解析为JSON格式,处理后数据使用VADER计算情感得分、Google Perspective API计算毒性得分,可用于研究气候变化讨论的文本特征与情感倾向。 文件详解...
    packageimg
  • CERME_Topic_Model_Based_主题模型数据科学实践完整数据

    2025年12月23日 30 128 86

    数据集概述 该数据集是ESM论文的技术附录,包含CERME主题模型相关的文件,涉及主题分布列表、模型可视化结果、生成模型的代码等内容,以确保研究透明度,为理解CERME主题模型的构建与结果提供支持。 文件详解 文件名称:Topic_model_CERME.ipynb,文件格式:.ipynb 内容:生成CERME主题模型的代码文件,用于复现模型构建过程...
    packageimg