RepLab_Based实体导向摘要数据集_V1_0

数据集概述

本数据集基于RepLab 2013数据集构建,包含汽车和银行两个领域共31个实体的71,303条英西双语推特数据。数据按实体主题聚类,每个主题对应人工生成的英文抽象摘要、西班牙文抽象摘要和抽取式摘要,主题标注有优先级(Alert、Midly_important、unimportant),用于实体声誉管理相关研究。

文件详解

  • 压缩包文件
  • 文件名称:RepLab_summarization_dataset-V1.0.zip
  • 文件格式:ZIP
  • 内容结构:包含entities目录,目录内每个.xml文件对应一个实体,字段包括:
  • Corpus entity:实体ID
  • cluster:实体的主题聚类,包含label(主题名称)、priority(主题优先级)
  • tweet:推特信息,包含id(推特ID)、date(发布日期)、followers(作者粉丝数)、polarity(情感极性)、text(推特文本)
  • summary:摘要信息,包含abstract_EN(英文抽象摘要)、abstract_ES(西班牙文抽象摘要)、tweet(抽取式摘要对应的推特ID)

数据来源

论文“Automatic Generation of Entity-Oriented Summaries for Reputation Management”

适用场景

  • 实体导向摘要生成研究:用于训练和评估针对企业实体的多语言(英西)摘要模型
  • 声誉管理优先级分析:基于主题优先级标签,研究声誉风险的自动识别与分级机制
  • 社交媒体情感与传播研究:通过推特的polarity、followers等字段,分析用户对企业的情感倾向及信息传播特征
  • 多语言文本处理:支持英西双语推特数据的预处理、语义分析等相关研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.36 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。