佛教梵语嵌入模型评估数据集

数据集概述

本数据集为佛教梵语嵌入模型研究的评估数据集,包含语义相似度数据集、类比任务数据集,以及研究论文和标注指南文档,用于支持佛教梵语文本处理模型的性能评估。

文件详解

  • 文件名称: ReadMe.txt
  • 文件格式: TXT
  • 内容: 包含语义相似度评分指南,定义0-6分的评分标准(从无关联到完全同义词),以及人工标注任务说明
  • 文件名称: Lugli_Martinc_Pelicon_Pollak_LREC2022_BuddhistSanskritEmbeddings.pdf
  • 文件格式: PDF
  • 内容: LREC 2022会议发表的研究论文,介绍佛教梵语嵌入模型的研究背景与方法
  • 文件名称: AnalogyTask.csv
  • 文件格式: CSV
  • 字段: verb(动词)、pastparticiplepassive(被动过去分词)、noun(名词)、actionnoun(动作名词)、agentivenoun(施事名词)
  • 文件名称: SemanticSimilarityDataset_Lugli2022.csv
  • 文件格式: CSV
  • 字段: word1(词1)、word2(词2)、ScoreA/ScoreB/ScoreC/ScoreD(四位标注者的语义相似度评分)

适用场景

  • 自然语言处理研究: 用于佛教梵语嵌入模型的语义相似度与类比推理任务性能评估
  • 梵语语言学研究: 分析佛教梵语词汇的语义关系与概念分类
  • 标注方法研究: 探索专业领域词汇语义相似度人工标注的标准与一致性
  • 宗教文献数字化: 为佛教梵语文献的智能处理提供评估基准
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.17 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。