土佐日记现代日语及英语翻译数据集

数据集概述

本数据集是《土佐日记》的现代日语及英语翻译文本集合,包含原文及对应翻译内容,以JSON格式存储,涵盖标题、作者、段落文本、假名注音、直译与意译等多维度信息,为古典文学翻译与研究提供结构化资源。

文件详解

该数据集包含一个压缩文件,具体说明如下: - 文件名称: yamagen/tosa-translation-v1.0.0.zip - 文件格式: ZIP (.zip) - 解压后核心内容: 包含一个JSON格式文件,字段示例如下: - 基础元数据:title(标题)、title_kana(标题假名)、title_roman(标题罗马音)、author(作者)、author_kana(作者假名)、author_roman(作者罗马音) - 段落数据(paragraph数组):date(修订日期)、id(文本ID)、text(原文)、kana(假名注音)、translation-ja(日语直译)、translation-en(英语直译)、translation-ja-natural(日语意译)、translation-en-natural(英语意译)等

数据来源

Zenodo、GitHub

适用场景

  • 古典文学翻译研究:对比分析《土佐日记》不同翻译版本的语言差异
  • 日语语言学研究:探究古典日语到现代日语的语义演变
  • 跨语言文化研究:分析日语古典文本的英语翻译策略
  • 自然语言处理:作为翻译语料支撑机器翻译模型训练或评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.21 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。