数据集

维基多语言文本分类数据集-2018

维基多语言文本分类数据集-2018 数据来源：互联网公开数据标签：文本分类,多语言,自然语言处理,机器学习,语言识别,维基百科,NLP,数据集数据概述：本数据集Wili-2018是一个用于语言分类的公开数据集。它包含了来自维基百科的文本数据，涵盖了235种不同的语言。数据集提供了丰富的多语言文本样本，为语言识别和文本分类任务提供了重要的训练和评估资源。labels.csv 文件包含了所有语言的标签信息。数据用途概述：该数据集主要用于自然语言处理（NLP）领域的语言分类研究。研究人员可以利用该数据集训练和评估多语言文本分类模型，开发语言识别算法，进行跨语言信息检索等。此外，该数据集也适用于机器学习领域的教学和实验，为学生提供实践机会，帮助他们理解和应用文本分类技术。

数据与资源

维基多语言文本分类数据集-2018.zipZIP
59.73 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	59.73 MiB
最后更新	2025年4月26日
创建于	2025年4月26日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

维基多语言文本分类数据集-2018

数据与资源

附加信息

注册成功！