俄语关系抽取Rebel数据集去重合并版

俄语关系抽取Rebel数据集去重合并版 数据来源:互联网公开数据 标签:俄语,关系抽取,自然语言处理,文本数据,机器学习,Rebel,数据集,语言模型 数据概述: 本数据集为俄语版Rebel数据集,用于关系抽取任务。原始数据集由Hugging Face用户memyprokotow创建。本数据集对原始数据集的分割进行了合并,并去除了重复数据。总共去除了17321条重复数据。 为了在训练过程中进行更快的验证,本数据集将测试集和开发集的大小调整为约2000个句子,原始数据集的测试集和开发集分别包含约84000个句子。 此外,由于某些关系的数量过少,本数据集删除了总样本数少于40个的全部关系。并且,由于目标数据的性质,一些在训练集中出现的关系,并未包含在测试集或开发集中。这些关系通常是样本数量有限的。 数据用途概述: 该数据集适用于俄语关系抽取模型的训练和评估。研究人员可以使用此数据集开发和测试基于Transformer等技术的模型,进行关系抽取任务,例如实体间的联系识别。数据集也适用于自然语言处理领域的学术研究和技术实践,可用于提升模型在俄语文本中的关系理解能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 149.56 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。