德语新闻文章主题分类数据集

德语新闻文章主题分类数据集 数据来源:互联网公开数据
标签:德语,新闻,主题分类,多分类,语言模型,文本分类,研究数据集

数据概述:
本数据集是基于“百万帖子语料库”构建的德语新闻文章主题分类数据集,包含10,273篇奥地利在线报纸的德语新闻文章,按主题分为9个类别。每篇新闻文章由“百万帖子语料库”中的主题路径的第二部分作为标签,例如“Newsroom/Wirtschaft/Wirtschaftpolitik/Finanzmaerkte/Griechenlandkrise”中的“Wirtschaft”被用作类别标签。文章内容包括标题、正文及其他元数据,为德语文本分类研究提供了宝贵的数据基础。数据集中的类别分布不平衡,最大的类别“Web”包含1,678篇文章,而最小的类别“Kultur”包含539篇文章。文章长度也因类别不同而有所差异,例如“Web”类别文章平均字数较少,而“Kultur”类别文章则较长。

数据用途概述:
该数据集适用于德语文本分类任务,特别是主题分类研究。研究人员可以使用此数据集训练和评估德语文本分类器,为德语自然语言处理工具和模型的开发提供支持。此外,由于数据集的类别分布不平衡,也可用于研究和解决文本分类中的类别不平衡问题。数据集还可作为德语主题分类任务的基准数据集,用于对比和验证不同模型的性能。教育和培训场景中,该数据集也可用于德语文本分析和分类的学习和实践。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 19.84 MiB
最后更新 2025年4月16日
创建于 2025年4月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。