七十士译本数据集

七十士译本数据集 数据来源:互联网公开数据 标签:七十士译本,旧约圣经,希伯来文,希腊文,圣经翻译,NLP,自然语言处理,文本分析

数据概述: 本数据集包含了七十士译本(即旧约圣经的希腊文翻译)的完整文本,该文本被认为是现存最古老的旧约圣经书面记录。七十士译本是直接翻译自希伯来文的希腊文版本,而现有的希伯来文版本则是数百年后对已失传的原始希伯来文来源的抄本。新约圣经中直接引用了七十士译本的希腊文文本,因此该版本对于宗教和语言学研究尤为重要。

数据用途概述: 该数据集适用于自然语言处理(NLP)研究、圣经翻译比较、宗教历史研究等场景。研究者可以利用此数据集进行文本分析、语言学研究以及语义对比分析。此外,此数据集也适合用于开发专门的NLP工具和库,例如自定义的停用词列表、地名和人名数据库,以及形态学词典等。当前的Spacy库虽然能够处理该文本,但在命名实体识别方面仍有改进空间。

举例: 该数据集包含1180行,共653,478个单词和7,692,966个字符。例如,可以通过以下命令获取文本内容的行数、单词数和字符数: cut -d";" -f2 septuagint.csv | wc

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.66 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。