WiLI_2018_Wikipedia_Based_多语言文本识别基准数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

WiLI_2018_Wikipedia_Based_多语言文本识别基准数据集

数据集概述

该数据集是Wikipedia语言识别基准数据集，包含235种语言的235000个段落，数据分布均衡，并提供训练集和测试集的划分。

文件详解

文件名称: wili-2018.zip
文件格式: ZIP压缩包（.zip）
内容说明: 压缩包内包含数据集的完整内容，具体字段及结构需解压后查看原始文件

适用场景

自然语言处理研究: 用于训练和评估语言识别模型的性能
多语言文本分析: 支持多语言文本的自动分类与识别任务
基准测试场景: 作为语言识别算法的标准测试数据集，验证模型泛化能力
计算语言学研究: 分析不同语言文本的特征差异与识别规律

数据与资源

841984.zipZIP
59.51 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	59.51 MiB
最后更新	2025年12月12日
创建于	2025年12月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？