维基百科多语言文本识别数据集-2018

维基百科多语言文本识别数据集-2018 数据来源:互联网公开数据 标签:文本识别,多语言,维基百科,自然语言处理,机器学习,语言学,文本分类,数据集 数据概述: WiLI-2018数据集是一个用于评估多语言文本识别任务的基准数据集,包含了来自维基百科的235种语言的235,000个文本段落。该数据集经过精心平衡,并提供了训练集和测试集划分。

数据集包含以下文件:

x_train.txt:175,000行文本,每行文本属于一种语言。 y_train.txt:175,000行,每行对应x_train.txt中相应文本的语言标签。 x_test.txt:同x_train.txt,测试集文本。 y_test.txt:同y_train.txt,测试集标签。 urls.txt:所有用于段落提取的维基百科页面的永久链接列表。 labels.csv:包含标题行和每种语言的标签行。 README.txt:数据集说明文件。

数据用途概述: 该数据集适用于多语言文本识别模型的训练和评估,是自然语言处理领域的重要研究资源。研究人员可以使用此数据集开发和测试各种文本分类算法,探索不同语言的文本特征,并评估模型的泛化能力。此外,该数据集也适用于教学和学术研究,帮助学习者理解多语言文本处理的挑战和方法。

数据与资源

附加信息

字段
版本 1.0
最后更新 April 15, 2025, 11:15 AM (UTC+00:00)
创建于 April 15, 2025, 11:11 AM (UTC+00:00)