印尼语_英语混合语料数据集

数据集概述

该数据集包含印尼语与英语混合的双语文本,用于支持情感分析和词性标注任务。数据来源包括Google Play Store应用评论、印尼维基百科及英语维基百科,分预训练语料库、情感分析语料库和词性标注语料库三部分,覆盖真实场景下的混合语言表达。

文件详解

  • 情感分析语料库文件(位于Code Mixed Dataset/Sentiment Analysis Corpus/目录下):
  • train_new.csv:CSV格式,含text(混合文本)、sentiment(情感标签,正/负)字段,用于训练
  • val_new.csv:CSV格式,字段同训练集,用于验证
  • test_new.csv:CSV格式,字段同训练集,用于测试
  • 词性标注语料库文件(位于Code Mixed Dataset/POS Tagging Corpus/目录下):
  • train_token_tambahan1.txt:TXT格式,含标注词性的混合文本,如"Cara mengetahui ..."
  • val_token_tambahan.txt:TXT格式,词性标注验证数据
  • test_token_tambahan.txt:TXT格式,词性标注测试数据,词性标签含ADJ、ADP、VERB等14类

适用场景

  • 混合语言情感分析模型训练与评估
  • 跨语言词性标注任务研究
  • 代码混合语言处理技术优化
  • 真实场景混合语言语料库构建参考
  • 多语言NLP模型鲁棒性测试
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.43 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。