数据集

维基百科多语言文本识别数据集-2018

维基百科多语言文本识别数据集-2018 数据来源：互联网公开数据标签：文本识别,多语言,维基百科,自然语言处理,机器学习,语言学,文本分类,数据集数据概述： WiLI-2018数据集是一个用于评估多语言文本识别任务的基准数据集，包含了来自维基百科的235种语言的235,000个文本段落。该数据集经过精心平衡，并提供了训练集和测试集划分。

数据集包含以下文件：

x_train.txt：175,000行文本，每行文本属于一种语言。 y_train.txt：175,000行，每行对应x_train.txt中相应文本的语言标签。 x_test.txt：同x_train.txt，测试集文本。 y_test.txt：同y_train.txt，测试集标签。 urls.txt：所有用于段落提取的维基百科页面的永久链接列表。 labels.csv：包含标题行和每种语言的标签行。 README.txt：数据集说明文件。

数据用途概述：该数据集适用于多语言文本识别模型的训练和评估，是自然语言处理领域的重要研究资源。研究人员可以使用此数据集开发和测试各种文本分类算法，探索不同语言的文本特征，并评估模型的泛化能力。此外，该数据集也适用于教学和学术研究，帮助学习者理解多语言文本处理的挑战和方法。

数据与资源

维基百科多语言文本识别数据集-2018.zipZIP
59.60 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	59.6 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

维基百科多语言文本识别数据集-2018

数据与资源

附加信息

注册成功！