数据集

RepLab_Based实体导向摘要数据集_V1_0

数据集概述

本数据集基于RepLab 2013数据集构建，包含汽车和银行两个领域共31个实体的71,303条英西双语推特数据。数据按实体主题聚类，每个主题对应人工生成的英文抽象摘要、西班牙文抽象摘要和抽取式摘要，主题标注有优先级（Alert、Midly_important、unimportant），用于实体声誉管理相关研究。

文件详解

压缩包文件
文件名称：RepLab_summarization_dataset-V1.0.zip
文件格式：ZIP
内容结构：包含entities目录，目录内每个.xml文件对应一个实体，字段包括：
Corpus entity：实体ID
cluster：实体的主题聚类，包含label（主题名称）、priority（主题优先级）
tweet：推特信息，包含id（推特ID）、date（发布日期）、followers（作者粉丝数）、polarity（情感极性）、text（推特文本）
summary：摘要信息，包含abstract_EN（英文抽象摘要）、abstract_ES（西班牙文抽象摘要）、tweet（抽取式摘要对应的推特ID）

数据来源

论文“Automatic Generation of Entity-Oriented Summaries for Reputation Management”

适用场景

实体导向摘要生成研究：用于训练和评估针对企业实体的多语言（英西）摘要模型
声誉管理优先级分析：基于主题优先级标签，研究声誉风险的自动识别与分级机制
社交媒体情感与传播研究：通过推特的polarity、followers等字段，分析用户对企业的情感倾向及信息传播特征
多语言文本处理：支持英西双语推特数据的预处理、语义分析等相关研究

数据与资源

2536801.zipZIP
1.36 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.36 MiB
最后更新	2026年1月31日
创建于	2026年1月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。