印度最高法院判决书英汉平行语料库数据集-varuthakari

印度最高法院判决书英汉平行语料库数据集-varuthakari 数据来源:互联网公开数据 标签:最高法院,判决书,印度,法律,语料库,翻译,英汉,司法,印度Kanoon, IndicTrans2 数据概述: 本数据集是一个英汉平行语料库,内容源自印度最高法院的判决书。原始判决书从Indian Kanoon网站获取,经过处理后,每个文档被分割成句子,并使用PySBD进行句子边界检测,以提高分割质量。所有句子均使用AI4Bharat的IndicTrans2模型进行翻译,将印度最高法院的判决书从英文翻译成中文。

数据用途概述: 该数据集主要用于机器翻译模型的训练和评估,特别是英汉翻译模型。此外,也可用于法律领域的语言学研究、法律文本分析、跨语言信息检索、以及辅助法律专业人士进行翻译和理解判决书。该数据集为研究人员和开发者提供了宝贵的资源,以改进翻译质量和促进法律信息的跨语言传播。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 139.24 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。