SherlockBox_RuNeg_Based_俄语否定标注数据

数据集概述

本数据集为俄语否定标注数据集,包含阿瑟·柯南·道尔《硬纸盒子》俄语译文的120个含否定句,标注了否定触发词和否定范围。数据由母语者用Prodigy工具标注,以JSON和TXT两种格式呈现,用于自然语言处理中否定分析研究。

文件详解

  • 文件1:RUS.json
  • 文件格式:JSON
  • 字段映射介绍:每个句子存储为3个向量,包括token列表、触发词标签列表(1=触发词,3=非触发词)、范围标签列表(1=在范围内,0=不在范围内)
  • 文件2:RUS_anno.txt
  • 文件格式:TXT
  • 字段映射介绍:每个句子以5行可视化呈现,依次为token、触发词标签、范围标签、触发词token、范围token

数据来源

http://www.lib.ru/AKONANDOJL/sh_cbox.txt

适用场景

  • 俄语否定分析模型训练: 用于训练和验证自然语言处理中否定触发词识别、否定范围检测的模型
  • 跨语言否定研究: 作为俄语否定标注语料,支持多语言否定处理的对比分析
  • 否定标注工具评估: 用于评估Prodigy等标注工具在俄语否定标注任务中的效果
  • 文学文本否定现象分析: 基于《硬纸盒子》译文,研究文学文本中的否定表达规律
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.13 MiB
最后更新 2026年2月9日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。