印尼语文本分类的认知扭曲数据集

数据集概述

该数据集是首个印尼语认知扭曲句子数据集,包含4662条句子,涵盖完整句及带"$"标记的扭曲部分句,标注有两位专家的标签。部分样本通过回译法扩充,支持印尼语和英语版本,为认知扭曲文本分类研究提供基础数据。

文件详解

  • 文件名称:COGNITIVE DISTORTION DATASET IN BAHASA INDONESIA COMPLETE.csv
  • 文件格式:CSV
  • 字段映射:TEXT(印尼语文本)、DATA STATUS(数据来源)、FIRST ANNOTATOR(第一标注者标签)、SECOND ANNOTATOR(第二标注者标签)
  • 文件名称:COGNITIVE DISTORTION DATASET IN ENGLISH COMPLETE.csv
  • 文件格式:CSV
  • 字段映射:TEXT (BAHASA)(印尼语文本)、TEXT (ENGLISH)(英语文本)、DATA STATUS(数据来源)、FIRST ANNOTATOR(第一标注者标签)、SECOND ANNOTATOR(第二标注者标签)

适用场景

  • 印尼语NLP模型训练:用于认知扭曲文本分类模型的开发与验证
  • 心理语言学研究:分析印尼语使用者认知扭曲的语言表达特征
  • 跨语言文本扩充方法评估:研究回译法在低资源语言文本分类中的效果
  • 心理健康辅助工具开发:为印尼语心理健康筛查工具提供语料支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.87 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。