罗马尼亚语言表情包数据集v2

数据集概述

该数据集为罗马尼亚语言表情包数据集v2,包含从公共社交媒体平台收集的罗马尼亚语表情包,提供手动标注(文本内容、图像复杂度、极性、情感、政治内容)及自动标注(词性标签、词元、依存句法分析)信息,支持多维度分析。

文件详解

  • 核心文件:
  • metadata.tsv: TSV格式,含文件ID、元数据及手动标注信息
  • LICENSE: 许可信息文件
  • README: 数据集说明文档
  • 图像文件目录 (images/):
  • 按"ID.原始扩展名"命名的图像文件,扩展名可能与元数据中的MIME类型不一致
  • 文本文件目录 (text/):
  • 按"ID.txt"命名的文本文件,仅包含表情包核心信息文本
  • 自动标注目录 (conllup/):
  • 按"ID.conllup"命名的文件,为text/目录文本的RELATE平台自动标注结果
  • 完整文本目录 (text_complete/):
  • 按"ID.txt"命名的文件,包含表情包提取的全部文本(含非核心信息)
  • 完整文本标注目录 (conllup_complete/):
  • 按"ID.conllup"命名的文件,为text_complete/目录文本的RELATE平台自动标注结果

适用场景

  • 自然语言处理研究: 用于罗马尼亚语表情包文本的句法分析、情感分类研究
  • 多媒体分析: 探索图像复杂度与文本情感的关联模式
  • 社会舆情分析: 研究罗马尼亚语表情包中的政治内容传播特征
  • 计算语言学: 验证自动标注工具在非正式文本(表情包)中的性能表现
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 177.02 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。