数据集概述
本数据集包含LODsyndesisIE实体识别任务的评估资源,涵盖SimpleWiki、MSNBC、AQUAINT三个评估集的10篇测试文本(平均每篇83.2词、含15.8个实体),以及不同实体识别工具的效果与效率评估结果,用于验证实体识别及LODsyndesis内容富集能力。
文件详解
- 评估文本文件(TXT格式)
- 文件名称:evaluation_collection.txt、aquaint2.txt、msnbc2.txt
- 文件格式:TXT
- 字段映射介绍:包含SimpleWiki、MSNBC、AQUAINT评估集的测试文本内容,以结构化格式组织单篇文本(如Text1的《指环王》系列电影描述)
- 评估结果文件(XLSX格式)
- 文件名称:lodsyndesisie-results-for-evaluation-collections.xlsx
- 文件格式:XLSX
- 字段映射介绍:记录不同实体识别工具在各评估集上的有效性结果
- 实验效率文件(XLSX格式)
- 文件名称:lodsyndesisie_experiments_efficiency.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含实体识别实验的效率相关统计数据
数据来源
demos.isl.ics.forth.gr/LODsyndesisIE/
适用场景
- 实体识别工具性能评估: 用于测试不同工具在SimpleWiki等评估集上的实体识别准确率、召回率等有效性指标
- 语义内容富集研究: 验证LODsyndesis技术对识别实体的语义内容补充能力
- 自然语言处理实验效率分析: 通过效率结果数据优化实体识别算法的运行性能
- 语义网应用测试: 为基于LOD(链接开放数据)的实体关联任务提供标准化评估资源