吉隆坡旅游博客数据集

数据集概述

该数据集包含吉隆坡旅游博客相关的文本与标注数据,分为训练、测试及相关文件三个文件夹,涵盖原始旅游文本与带空间三元组标注的XML文件,用于空间关系提取研究。

文件详解

该数据集由三个文件夹组成,具体说明如下: - Training文件夹: - raw training files子文件夹:包含从三十六篇吉隆坡旅游博客提取的原始文本,文件格式为.txt - labeled files子文件夹:包含原始文本的XML版本文件,标注有五百个空间三元组(trajector、spatial indicator、landmark),文件格式为.xml - Testing文件夹: - raw testing files子文件夹:包含从十篇吉隆坡旅游博客提取的原始文本,文件格式为.txt - labeled files (gold standard)子文件夹:作为评估黄金标准,包含原始文本的XML版本文件,标注有二百个空间三元组(trajector、spatial relation、landmark),文件格式为.xml - Related files文件夹: - 包含训练与测试文件的标注方案定义文件,文件格式为.xml,如spatial_triplet.xml

适用场景

  • 自然语言处理研究:用于空间关系提取模型的训练与评估
  • 旅游文本分析:挖掘吉隆坡旅游博客中的空间信息与地标关联
  • 地理信息系统应用:将文本中的空间描述转化为结构化地理数据
  • 语义标注方法论研究:分析旅游文本空间标注的标准与实践
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.35 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。