多类别分类土耳其文本数据集-TC32-2023-savasy

多类别分类土耳其文本数据集-TC32-2023-savasy 数据来源:互联网公开数据 标签:土耳其文本分类,多类别分类,基准数据集,产品评论,自然语言处理,NLP,文本挖掘,机器学习,分类算法

数据概述: 本数据集是一个用于土耳其文本分类的基准数据集(TC32),包含430,000条记录,分为32个类别,每个类别大约包含13,000条评论。数据来源于土耳其的各类网站,涵盖了多种产品的用户评论及其所属的产品类别。该数据集适用于多类别文本分类的研究和应用。

数据用途概述: 该数据集适用于自然语言处理(NLP)、文本挖掘和机器学习领域的多类别文本分类任务。研究人员可以利用此数据集训练和评估各类文本分类算法。例如,朴素贝叶斯算法在该数据集上获得了84%的F1得分,作为基线算法展示了良好的分类性能。此外,该数据集还适用于产品评论分析、用户满意度评估、市场研究等多种实际应用场景。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 50.09 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。