俄罗斯传记文本语料库1963-2021

俄罗斯传记文本语料库1963-2021 数据来源:互联网公开数据 标签:传记文本,俄罗斯,自然语言处理,文本挖掘,生物信息提取,主题分类 数据概述: 本语料库收录了200篇俄罗斯传记文章(来源于维基百科,2018年版),旨在自动识别文本中的传记信息片段。语料库经过初步文本收集、筛选和预处理,删除了仅包含个人生活年份和工作地点列表的简短文本,并保留了“传记”部分,删除了诸如奖项列表、科学作品和其他不便于标注的部分。 语料库中的传记涉及的主要活动领域包括军事和执法官员、文化与艺术人物、科学、技术和教育领域的专家、政治人物和公众人物、企业家和管理者、宗教人物。 每篇文本被划分为句子,每个句子被归类为一个或两个主题类别:非传记性事实、个人事件、职业事件、出生死亡及家庭国籍信息、教育家庭居住地信息、职业和职位、其他传记性事实。 语料库由以下元素组成:以.xml格式呈现的文本(每个句子包含“text”和“type”属性(主题类别),如有需要则包含“additional_type”属性(附加主题类别));以及一个描述语料库的.csv文件,其中包含文本的相关信息(人物姓名、生活年代、主要活动领域)。 数据用途概述: 本语料库适用于自然语言处理任务中的传记信息提取和主题分类。研究人员可以利用此数据进行传记信息的自动识别和分类;教育机构可以将其用于自然语言处理课程的教学;开发人员可以利用该数据集训练和测试传记信息处理算法。 举例: 该语料库包括一篇关于俄罗斯著名作家列夫·托尔斯泰的传记文章,其中包含他出生和死亡的信息、家庭背景、教育经历、文学成就和个人生活等。每个句子都被标注了相应的主题类别,如“出生死亡及家庭国籍信息”、“教育家庭居住地信息”、“职业和职位”等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.34 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。