维基多语言文本分类数据集-2018

维基多语言文本分类数据集-2018 数据来源:互联网公开数据 标签:文本分类,多语言,自然语言处理,机器学习,语言识别,维基百科,NLP,数据集 数据概述: 本数据集Wili-2018是一个用于语言分类的公开数据集。它包含了来自维基百科的文本数据,涵盖了235种不同的语言。数据集提供了丰富的多语言文本样本,为语言识别和文本分类任务提供了重要的训练和评估资源。labels.csv 文件包含了所有语言的标签信息。 数据用途概述: 该数据集主要用于自然语言处理(NLP)领域的语言分类研究。研究人员可以利用该数据集训练和评估多语言文本分类模型,开发语言识别算法,进行跨语言信息检索等。此外,该数据集也适用于机器学习领域的教学和实验,为学生提供实践机会,帮助他们理解和应用文本分类技术。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 59.73 MiB
最后更新 2025年4月26日
创建于 2025年4月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。